• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Статья

Автоматическое извлечение дискурсивных формул из текстов на русском языке

Пужаева С. Ю., Герасименко Е. А., Захарова Е. С., Рахилина Е. В.

Статья посвящена проблеме создания модуля автоматического извлечения из текстов русского языка особых единиц дискурсивных формул. Под дискурсивными формулами (ДФ) мы понимаем неоднословные конструкции, которые, однако, не содержат переменных и выступают в роли ответных реплик на вербальный стимул. Работа над программным модулем включала в себя несколько этапов, в том числе ручную разметку пьес по выявленным в ходе работы критериям. Процесс автоматического извлечения ДФ предусматривает деление текста на синтаксические единицы, соотносимые с клаузой, предсказание принадлежности каждой из единиц к классу ДФ на основании выделенного нами набора признаков и формирование итогового списка ДФ. В качестве алгоритма классификации используется равновесное голосование четырех классификаторов: Random Forest Classifier, Logistic Regression, Ridge Classifier, Support Vector Classifier.