?
Алгоритмы построения компьютерного словаря русских буквенных паронимов и его применение
В работе рассматриваются вопросы построения и применения компьютерного словаря русских однобуквенных паронимов, т.е. слов, отличающихся одной буквой и получающихся друг из друга в результате замены, вставки, удаления буквы или же перестановки двух стоящих рядом букв (например: время – бремя, отпечатать – опечатать). Словарь разрабатывался для автоматизиpованного исправления в тексте случайных ошибок (так называемых малапропизмов), при которых одно знаменательное слово заменяется другим похожим словом, отличным от первого по смыслу и тем самым нарушающим исходный смысл высказывания. Паронимы построенного словаря служат вариантами исправления однобуквенных ошибок, при котором не требуется изменение контекста ошибочного слова. В связи с последним требованием в работе уточняется понятие буквенных паронимов за счет дробления морфологических парадигм слов (лексем) и учета свойства параллельности морфологических парадигм. Параллельными считаются морфопарадигмы двух лексем, для которых существует элементарная редактирующая операция (вставка, удаление, замена буквы, перестановка двух соседних букв), переводящая каждую словоформу первой лексемы в соответствующую словоформу второй лексемы. В работе описывается процесс построения компьютерного словаря однобуквенных паронимов, а также формулируются основные шаги алгоритмов поиска исправляющих слов для найденных в тексте ошибок, с помощью построенного словаря – соответственно для случаев полной и неполной параллельности морфопарадигм исправляемого слова и его паронима. Приводится также статистика контента построенного компьютерного словаря однобуквенных паронимов, общий объем которого достиг 70 тыс. вокабул, в среднем с тремя паронимами на вокабулу.