• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Статья

Система автоматического аннотирования текстов с помощью стохастической модели

Вознесенская Т. В., Леднов Д. А.

Работа посвящена системе автоматического аннотирования текста, реализованной в рамках совместного проекта компании «DC – Systems» и факультета компьютерных наук НИУ ВШЭ. Построение аннотации осуществляется с помощью синтаксически согласованных словосочетаний, наиболее близких к семантике всего текста. При этом пренебрегается возможными дополнительными смыслами отдельных фрагментов текста. Качество аннотации определяется семантической близостью к исходному тексту.

Задача построения аннотации разбивается на две части: оценка семантики текста в целом, то есть без разделения на более мелкие составляющие, и преобразование текста, приводящее к построению аннотации.

В работе описана структурная схема реализованной системы автоматического аннотирования и алгоритм ее работы. Система протестирована на коллекции из 50 текстов различной тематики, приведен пример построенной аннотации и дана оценка его качества с помощью набора мер качества ROUGE [9]. Ограничением применения текущей версии системы является наличие в тексте формул и специальных символов.