?
Компьютерное моделирование как инструмент анализа художественного текста
Статья посвящена проблеме эвристической продуктивности использования метода компьютерного тематического моделирования для филологического анализа художественного текста. Анализируются результаты применения алгоритма Латентного размещения Дирехле (LDA) для поиска интертекстуальных связей мотивов в двух подкорпусах художественных текстов: 62 текстах разного жанра (рассказы, очерки, повести, критические статьи), принадлежащих перу С. Довлатова, с одной стороны, и 35 художественных произведениях, которые в одном из писем Т. Уржумовой писатель перечислил как произведения, которые оказали на него воздействие и которые должен прочитать каждый. Примененный алгоритм выявил 20 тем (топиков), по которым были распределены все тексты. Каждый полученный топик - это цепочка слов с весами значимости для реализации данной темы. В результате сопоставления текстов и тем были выявлены три соответствия «текст - тема». Одной общей теме принадлежат тексты в каждой из трех следующих групп: 1) роман Б. Пильняка «Голый год» и рассказ С. Довлатова «У реки»; 2) роман Г. Уэльса «Машина времени», повесть Э. Хемингуэя «Старик и море» и рассказ С. Довлатова «Эмигранты»; 3) рассказ А. Грина «Комендант порта» и очерк С. Довлатова «Мы говорим на разных языках». Дальнейший филологический анализ позволил выявить пересечения мотивов в данных группах произведений. Проведенное пилотное исследование показало, что методы компьютерного анализа текста, в том числе на основе машинного обучения, могут стать для филолога инструментом разведывательного поиска, направляя экспертную интуицию по пути, намеченному алгоритмом за счет обработки больших корпусных массивов.