?
Культуромика в национальном корпусе русского языка, к постановке задачи: три века русских дорог.
Культуромика – новый метод исследования культурных и социальных процессов с помощью статистического анализа употребления слов и словосочетаний в огромных текстовых массивах. Исследования по культуромике выполняются на базе Google ngrams, хранилища всех сочетаний слов для каждого года длиной от 1 до 5 на 8 языках. Однако работа с большими данными обладает рядом проблем, решить которые предлагается, сузив объем данных, но существенно улучшив их по качеству. В статье вводится понятие medium data – средних данных, достаточных для того, чтобы строить с их помощью надежные статистические предсказания, но и допускающих, благодаря своему объему, качественную очистку, фильтрацию, объединение данных в семантические классы. В статье рассматриваются данные XVIII-XX веков, полученные как результат запроса «прилагательное + дорога». Весь массив данных был поделен на семантические классы, соответствующие одному из аспектов значений существительного дорога. В работе строятся наблюдения о том, какие из семантических классов ведут себя похожим образом, как меняется частотность вхождений семантических классов, а также их лексический состав с течением времени. Эти данные связываются с экстралингвистической реальностью. Фактически предпринимается попытка исследования того, как изменения в общественной жизни находят отражение в изменениях языковой практики. Это исследование проводится с помощью данных Национального корпуса русского языка.