?
Выявление социальных проблем и изменений через анализ больших массивов текстов в блогах и социальных сетях
Вот уже около десятилетия у социальной реальности появился новый «дом» - Интернет, ставший индикатором, предиктором и двигателем социальных процессов и изменений. «Арабские революции» этого года показали его значение даже в тех обществах, где доля пользователей Интернета не очень велика. Казалось бы, перед социологами открылись небывалые возможности для исследования и прогнозирования социальных процессов, однако исследовательское сообщество сталкивается с проблемой отсутствия средств анализа громадных объемов текстовых данных, который невозможен без специализированного программного обеспечения, продвинутых математических алгоритмов и компьютерно-лингвистических подходов.
Этот текст посвящен предварительным результатам работы междисциплинарного исследовательского коллектива в рамках проекта «Разработка методологии сетевого и семантического анализа блогов для социологических задач». Общие задачи проекта – выявить на больших массивах данных русскоязычной блогосферы тематические кластеры постов (о чем говорят?) и сообщества, основанные на комментировании (кто с кем говорит?); выяснить, совпадают ли комментовые сообщества с тематическими кластерами (т.е. основана ли общность комментирования на общности темы?). Тестовой тематикой является тема Ислама.
В данном тексте рассматриваются только этапы технологической цепочки текстового анализа и связанные с ними трудности; сетевой анализ, необходимый для выявления сообществ комментирования, и проблемы его сопоставления с текстовым не рассматриваются.