?
Система автоматического аннотирования текстов с помощью стохастической модели
Работа посвящена системе автоматического аннотирования текста, реализованной в рамках совместного проекта компании «DC – Systems» и факультета компьютерных наук НИУ ВШЭ. Построение аннотации осуществляется с помощью синтаксически согласованных словосочетаний, наиболее близких к семантике всего текста. При этом пренебрегается возможными дополнительными смыслами отдельных фрагментов текста. Качество аннотации определяется семантической близостью к исходному тексту.
Задача построения аннотации разбивается на две части: оценка семантики текста в целом, то есть без разделения на более мелкие составляющие, и преобразование текста, приводящее к построению аннотации.
В работе описана структурная схема реализованной системы автоматического аннотирования и алгоритм ее работы. Система протестирована на коллекции из 50 текстов различной тематики, приведен пример построенной аннотации и дана оценка его качества с помощью набора мер качества ROUGE [9]. Ограничением применения текущей версии системы является наличие в тексте формул и специальных символов.