• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Глава

Authorship Attribution in Russian with New High-Performing and Fully Interpretable Morpho-Syntactic Features

P. 193-204.
Pimonova E., Durandin O., Malafeev A.

В данной работе рассматривается проблема моделирования авторского стиля на русском языке. В частности, мы решаем задачу атрибуции авторства, используя собранный набор данных из 30 авторов, 1506 текстов, написанных в период с 18 по 21 век. Мы применяем различные подходы к решению проблемы атрибуции: случайный лес, логистическая регрессия, метод опорных векторов. С точки зрения представления текста, мы используем семь моделей на трех уровнях языка: лексика, морфология и синтаксис. Кроме того, мы предлагаем собственный набор морфосинтаксических признаков, которые сопоставимы по эффективности с doc2vec, но полностью интерпретируемы. Проведенные эксперименты показывают эффективность их автономного использования, а также повышение качества классификации при использовании этих атрибутов наряду с классическим подходом на основе doc2vec. Весь код, включая извлечение признаков, размещён в свободном доступе. Кроме того, мы анализируем эффективность отдельных признаков как маркеров стиля. Наконец, мы изучаем ошибки классификации, чтобы определить закономерности в неправильном определении конкретных авторов.