?
Низкочастотные слова в русском языке и подходы к моделированию общеязыковой частотности
В настоящей статье сравниваются частотные списки лемм, представленные в «Новом частотном словаре русской лексики» на базе НКРЯ и полученные в частотном списке на базе веб-корпуса ruTenTen11. Перед сравнением исходные списки были преобразованы, в результате получены списки общей длиной, соответственно, в 51681 слово и 457935 слов. Сопоставлены списки слов, имеющих относительные частоты <5 ipm по данным хотя бы одного из корпусов. В качестве нижнего порога отсечения вынужденно выбрано значение абсолютной частоты, равное 37. Посчитаны значения мер «coverage» (охват) и «enrichment» (обогащение). Выяснилось, что мера «coverage», отражающая долю перекрытия между списками лемм, принимает значение в 9,4%. Это значит, что доля перекрытия между списками составляет лишь 9,4% (от есть список на базе НЧСРЛ имеет низкий охват списка на базе RuTenTen для слов с абсолютной частотой ≥ 37).
Становится понятным, что именно следует изменить в методике сравнения данных корпусов для получения списков низкочастотных слов. Во-первых, пороговые значения следует вводить для сводного списка лемм, ранжированного по значениям «ipm mean». Во-вторых, необходимо привлечь к сравнению частотный список лемм, полученный на материале относительно жанрово-сбалансированного корпуса. Такой русский корпус существует – это «Taiga». В-третьих, из списков, полученных на материале веб-корпусов, стоит удалить позиции, содержащие ошибки лемматизации и другой шум. В-четвёртых, списки лемм, относящихся к словоформам глаголов, следует рассматривать отдельно. Именно такую методику и предполагается применять в дальнейшем.