?
Меры релевантности строка-текст в проблеме рубрикации научных статей
Проблема оценки релеватности строк и текстов возникает в различных задачах, связанных с анализом текстовой информации: информационный поиск и извлечение документов (information retrieval), вывод гипотез из текста, (textual entailment), категоризация текстов (text categorization), автоматическое реферирование текстов (automatic summarization) и при создании вопросо-ответных систем [question answering]. В этих задачах используются разные модельные и экспериментальные подходы: либо семантические, основанные на оценке схожести смыслов, либо статистические, основанные на сравнении частот строк в разных текстах. В этой работе рассматривается задача аннотации научной публикации (текста) темами таксономии-рубрикатора (строками). Для оценки релеватности строки тексту используется метод аннотированного суффиксного дерева (АСД).