• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Статья

Меры релевантности строка-текст в проблеме рубрикации научных статей

Бизнес-информатика. 2014. № 2. С. 51-62.

Проблема оценки релеватности строк и текстов возникает в различных задачах, связанных с анализом текстовой информации: информационный поиск и извлечение документов (information retrieval),  вывод гипотез из текста, (textual entailment), категоризация текстов (text categorization), автоматическое реферирование текстов (automatic summarization) и при создании вопросо-ответных систем [question answering].   В этих задачах используются разные модельные и экспериментальные подходы: либо семантические, основанные на оценке схожести смыслов, либо статистические, основанные на сравнении частот строк в разных текстах. В этой работе рассматривается задача аннотации научной публикации (текста) темами таксономии-рубрикатора (строками). Для оценки релеватности строки тексту используется метод аннотированного суффиксного дерева (АСД).