• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Статья

Автоматическое определение половой принадлежности автора текста: феномен русской женской прозы

Статья посвящена изучению методов автоматического определения гендерной идентичности авторов на материале художественной прозы 1960-2000 годов.
Цель данной работы - выявление оптимальных методов автоматического определения гендерной идентичности авторов. Задачи данного исследования включают в себя выделение грамматических стилистических особенностей художественной прозы 1960-2000 годов и, в особенности, женской прозы, а также текстов XVIII - XIX в.; отслеживание изменений в распределении употребления частей речи и знаков пунктуации на протяжении обозначенного периода и проведение эксперимента по выявлению наиболее результативного алгоритма классификации художественных текстов при помощи машинного обучения. На протяжении всего исследуемого периода в женских и мужских текстах анализировались наиболее частотные части речи. Произведен анализ употребления особо часто используемых знаков препинания из заданного списка: вопросительный знак, восклицательный знак, запятая, двоеточие, точка с запятой, точка, запятая. В статье показан анализ распределения частей речи и знаков пунктуации в художественных текстах мужчин и женщин XVIII-XIX веков. 
Также проведен эксперимент по выявлению наиболее действенного алгоритма определения гендерной идентичности автора. В результате исследования: 1) установлено, что частотность употребления различных частей речи в женских и мужских текстах заданного периода выглядит следующим образом: существительные, глаголы, предлоги, местоименные существительные, союзы и прилагательные, что отражает специфику художественного стиля; 2) можно заключить, что в современной литературе женщины более активно пользуются средствами пунктуации как выразительными средствами: доля употребления восклицательных, вопросительных знаков и запятых у писательниц значительно превышает значение, полученное посредством анализа мужских текстов; 3) выяснено, что наиболее эффективными классификаторами художественной литературы являются такие реализации алгоритмов, как BayesNet и SMO.