Authorship Attribution in Russian with New High-Performing and Fully Interpretable Morpho-Syntactic Features

Pimonova E.; O. Durandin; A. Malafeev

doi:10.1007/978-3-030-37334-4_18

Публикации

?

Authorship Attribution in Russian with New High-Performing and Fully Interpretable Morpho-Syntactic Features

P. 193–204.

Pimonova E., Дурандин О. В., Малафеев А. Ю.

В данной работе рассматривается проблема моделирования авторского стиля на русском языке. В частности, мы решаем задачу атрибуции авторства, используя собранный набор данных из 30 авторов, 1506 текстов, написанных в период с 18 по 21 век. Мы применяем различные подходы к решению проблемы атрибуции: случайный лес, логистическая регрессия, метод опорных векторов. С точки зрения представления текста, мы используем семь моделей на трех уровнях языка: лексика, морфология и синтаксис. Кроме того, мы предлагаем собственный набор морфосинтаксических признаков, которые сопоставимы по эффективности с doc2vec, но полностью интерпретируемы. Проведенные эксперименты показывают эффективность их автономного использования, а также повышение качества классификации при использовании этих атрибутов наряду с классическим подходом на основе doc2vec. Весь код, включая извлечение признаков, размещён в свободном доступе. Кроме того, мы анализируем эффективность отдельных признаков как маркеров стиля. Наконец, мы изучаем ошибки классификации, чтобы определить закономерности в неправильном определении конкретных авторов.

Язык: английский

Полный текст

DOI

Ключевые слова: машинное обучение natural language processing автоматическая обработка естественного языка machine learning authorship attribution авторский стиль Text representation text classification Author Style morpho-syntactic features language feature engineering определение авторства классификация текста формальное представление текста морфосинтаксические признаки разработка языковых признаков

В книге

Analysis of Images, Social Networks and Texts. 8th International Conference, AIST 2019, Lecture Notes in Computer Science, Revised Selected Papers

Vol. 11832. , Cham: Springer, 2019.

Сравнение методов автоматической разметки речевых формул в русскоязычном интернет-дискурсе: пилотное исследование

Попова Т. И., Масленикова А. С., В кн.: Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной международной конференции «Диалог». Выпуск 24.Issue 24.: M.: Max press, 2026. С. 420–429.

Настоящее исследование посвящено разработке и сравнению методов автоматической разметки речевых формул в корпусе русскоязычных интернет-комментариев. Речевые формулы представляют собой класс устойчивых неоднословных единиц, выражающих эмоциональную реакцию в диалоге. Материалом исследования послужил корпус из 10 000 комментариев (157 261 токен), собранных из пяти Telegram-каналов. Формальный поиск по словнику из 437 единиц дал точность (precision) 21%. Для ...

Добавлено: 29 июня 2026 г.

The Use of the Missing Sample Simulation Modeling to Create a Classification Model for Three or More Classes by the Example of the Carbohydrate Metabolism Disorder Degree Detection Problem

Новиков Р. С., Novopashin M., Позин Б. А., Programming and Computer Software 2026 Vol. 52 No. 1 P. 28 – 38

Добавлено: 26 июня 2026 г.

К ранжированию значимости факторов дестабилизации в странах Азии и Африки методами машинного обучения

Коротаев А. В., Черноморченко И. Ю., Медведев И. А., Восток. Афро-азиатские общества: история и современность 2026 № 3 С. 117–130

В статье методами машинного обучения проранжированы по их значимости факторы крупномасштабной вооруженной и невооруженной дестабилизации в странах Азии и Африки. Показано, что страны Африки в большей мере уязвимы к вооружённой дестабилизации (вплоть до полномасштабных гражданских войн), а страны Азии – к массовой невооружённой (антиправительственные демонстрации, массовые беспорядки, политические забастовки и т. п.). Ключевыми факторами вооружённой ...

Добавлено: 21 июня 2026 г.

Artificial intelligence and digital twins for failure prediction in data center cooling systems: a comprehensive literature review (2018–2026)

Butorova A., Bobakov V., Sergeev A. и др., European Physical Journal: Special Topics 2026 P. 1–19

Добавлено: 10 июня 2026 г.

Влияние шизофрении на лексический уровень языка

Унтила К. В., Тасенко О. А., В кн.: Современная лингвистика: ключ к диалогу. Труды и материалы IV Казанского международного лингвистического саммита.Т. 1: СОВРЕМЕННАЯ ЛИНГВИСТИКА: КЛЮЧ К ДИАЛОГУ.: Каз.: Издательство Казанского университета, 2024. С. 221–224.

Шизофрения – это хроническое психическое расстройство, которое выражается как комбинация психотических симптомов – таких как галлюцинации, бред и дезорганизация когнитивных функций. У многих пациентов с диагнозом шизофрения обнаруживаются нарушения речи. Для исследования были отобраны рассказы об истории из жизни из корпуса 3D. В качестве личных историй были собраны ответы на вопросы «Какой самый лучший или запоминающийся ...

Добавлено: 8 июня 2026 г.

Beyond Delta: Introducing an Angle Metric for Stylometric Similarity

Горина О. Г., / Series rs-8457236 "Research Square Preprints". 2025.

В статье рассматривается проблема измерения стилометрической близости между текстами. Традиционные методы, такие как дельта Берроуза и её модификации, имеют ряд ограничений, включая зависимость от референсного корпуса и чувствительность к размеру выборки, что делает их менее надёжными при работе с короткими текстами объёмом менее 5000 слов. В качестве альтернативы предлагается новая угловая метрика, основанная на вычислении ...

Добавлено: 8 июня 2026 г.

Rank‑Turbulence Delta and interpretable approaches to stylometric Delta measures

Dmitry Pronin, Evgeny Kazartsev, Digital Scholarship in the Humanities 2026 P. 1–15

Добавлено: 4 июня 2026 г.

Proceedings of the 43rd International Conference on Machine Learning (ICML 2026)

Seul: PMLR, 2026.

Добавлено: 4 июня 2026 г.

От неизвестности к прозрачности: обзор технологий объяснимого ИИ (XAI)

Авдошин С. М., Песоцкая Е. Ю., Информационные технологии 2026 Т. 32 № 4 С. 185–194

С развитием ИИ, и в особенности глубокого обучения, появились модели, способные давать крайне точные прогнозы. Однако их внутренняя логика остается трудной для понимания — и это серьезная проблема, особенно в сферах, где от корректности алгоритма зависят критиче ски важные решения. Одним из перспективных путей ее решения считается направление Explainable Artificial Intelligence (XAI) — разработка подходов, позволяющих прояснять ...

Добавлено: 8 мая 2026 г.

Современные методы анализа временных рядов в мониторинге и прогнозировании состояния оборудования для механизированной добычи

Незнанов А. А., Глушко А. А., Овчинников С. и др., В кн.: Интеллектуальный анализ данных в нефтегазовой отрасли.: М.: ООО «Геомодель Развитие», 2024. С. 140–143.

С развитием систем мониторинга мы получили возможность собирать ключевые показатели работы устройств в процессе механизированной добычи. Каждый день генерируется огромное количество телеметрии, которая пройдя процесс гармонизации и трансформации может быть использована для прогнозирования состояния оборудования. В докладе представлен обзор и произведён отбор современных математических методов и программных реализации инструментов анализа многомерных нерегулярных временных рядов для ...

Добавлено: 29 апреля 2026 г.

Machine Learning Approach to Anticancer Activity Prediction of Transition-Metal Complexes Based on a Large-Scale Experimental Database

Krasnov L., Malikov D., Kiseleva M. и др., Journal of Medicinal Chemistry 2026 Vol. 69 No. 8 P. 8838–8851

Добавлено: 23 апреля 2026 г.

LSTM-модель потребления тепловой энергии в многоэтажном жилом здании

Ершов И. А., Системная инженерия и инфокоммуникации 2025 № 4 С. 11–14

Теплопотребление жилых зданий представляет собой стохастический ряд, создание нейросетевой модели для которого необходимо для проектирования регуляторов тепловой энергии. В статье модель разработана с применением "длинной цепи элементов краткосрочной памяти" (LSTM, Long Short-Term Memory). Высокая точность воспроизведения рядов достигнута обучением модели на наборе данных города Томска 2013-2023 г.г. При моделировании учтены характеристики зданий и температура наружного воздуха. ...

Добавлено: 22 апреля 2026 г.

Алгоритм анализа новостной информации для принятия экономических решений

Чудинова О. С., Первицкая Л. А., Раменская А. В., Индустриальная экономика 2026 № 1 С. 65–78

Статья посвящена разработке алгоритма анализа новостной информации методами машинного обучения, реализованными в библиотеках Python. Обоснование выбора инструментов, применяемых на каждом этапе алгоритма, осуществляется с помощью расчета метрик качества решения соответствующих задач машинного обучения. Результаты работы алгоритма представлены классификацией региональных новостей, собранных за период с августа 2024 года по июнь 2025 года, по отраслям экономики и ...

Добавлено: 20 апреля 2026 г.

Modeling cosolvent effects on solubility in supercritical CO2 using data-driven approaches

Makarov D. M., Каликин Н. Н., Gurikov P. и др., Journal of Supercritical Fluids 2026 Vol. 235 Article 106979

Добавлено: 19 апреля 2026 г.

Эффективность применения прогнозов волатильности в активных торговых стратегиях институциональных инвесторов на российском рынке акций

Лысенок Н. И., Фундаментальная и прикладная математика 2026 Т. 26 № 3 С. 33–42

Исследование посвящено оценке влияния прогнозов реализованной волатильности на результаты активных торговых стратегий на российском рынке акций. На выборке 17 ликвидных акций за 2014-2026 гг. построена гибридная прогнозная модель, объединяющая HAR-J и градиентный бустинг; её преимущество над базовой HAR-J подтверждено тестом Дибольда-Мариано (p < 0,001). Шесть направленных стратегий трёх категорий протестированы с тремя механизмами интеграции прогнозов и без них. ...

Добавлено: 17 апреля 2026 г.

Особые экономические зоны Российской Федерации: моделирование решений потенциальных резидентов и процесса их генерации

Плесовских А. Е., Journal of Applied Economic Research 2023 Т. 22 № 2 С. 323–354

В современных исследованиях широко обсуждается роль особых экономических зон в стимулировании экономического роста и развития России, формировании необходимых инвестиционных потоков и повышении инновационного потенциала страны за счет расширения производства продукции в высокотехнологичных отраслях экономики с высокой добавленной стоимостью. Цель исследования – моделирование процесса генерации резидентов и детерминация количественных факторов, оказывающих статистически значимый эффект на среднегодовой ...

Добавлено: 13 апреля 2026 г.

Опыт генерации оценок эмоциональной валентности и возбуждения слов на основе символьно-уровневой CNN

Люсин Д. В., Валуева Е. А., Сысоева Т. А., В кн.: Психология познания: Материалы Всероссийской научной конференции, ЯрГУ, Институт психологии РАН, 5–6 декабря 2025 г.: Институт психологии РАН, 2026. С. 310–314.

Эмоциональная окраска слов широко используются в различных академических и прикладных исследованиях, от анализа текстов до понимания когнитивных процессов. Актуальной задачей является создание объёмных датасетов с оценками слов по ряду эмоциональных параметров. Современные методы машинного обучения, основанные на семантической близости слов, извлекаемой из текстовых корпусов, демонстрируют высокие корреляции с человеческими оценками, однако иногда наблюдаются существенные расхождения. ...

Добавлено: 10 апреля 2026 г.

Нейросетевые инструменты в арсенале вузовского преподавателя

Федоров А. О., Вакку Г. В., Лебедева С. Э., Галактика медиа: журнал медиа исследований 2026 Т. 8 № 2 С. 163–182

С увеличением объемов данных преподаватель вуза может потратить годы на обработку и систематизацию информации. Персонализированная помощь, рекомендации по контенту, сбор данных для обзоров литературы и оформление библиографических ссылок укрепляют роль искусственного интеллекта как эффективного нейросетевого инструмента научной коммуникации. В данной статье рассматриваются практические примеры использования таких инструментов, как Elicit, SciSpace, Consensus, Undermind и Paperfinder, для упрощения ...

Добавлено: 7 апреля 2026 г.