• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Статья

Выявление тематической структуры российской блогосферы: автоматические методы анализа текстов

В статье изложены методологические результаты исследования русскоязычных блогов. Произведена адаптация и апробация автоматизированных методов анализа текстов и соответствующего программного обеспечения для решения содержательных задач (выявление тематической структуры блогосферы, описание ее изменений во времени, выявление процесса образования дискуссионных сообществ). Выделяются и описываются два класса методов деления больших массивов текстов на группы – кластерный анализ и тематическое моделирование; из каждой группы выбирается и апробируется программное обеспечение (ПО). Эксперименты проводятся на двух массивах данных в 104 постов каждый. Обосновывается выбор в пользу тематического моделирования, представлено описание полной технологической цепочки от сбора до социологического анализа данных.