?
Применение семантически связанных деревьев синтаксического разбора в задаче поиска ответов на вопросы, состоящие из нескольких предложений
Проблема нахождения релевантных ответов на вопросы, состоящие из нескольких предложений, является популярной и востребованной во многих прикладных областях. В частности, она возникает в промышленных системах, ориентированных на предоставление товаров и услуг. Один из основных подходов к данной проблеме заключается в том, что множество потенциальных ответов, полученное с помощью поиска по ключевым словам, повторно упорядочивается с помощью сопоставления деревьев синтаксического разбора ответов с деревом разбора, составленным для вопроса. В данной работе подход, основанный на применении деревьев разбора, был модифицирован и улучшен за счет перехода к более точному представлению семантико-синтаксической структуры текста: рассмотрению абзацев текста в качестве единицы анализируемой информации. Для решения задачи поиска были разработаны специальное представление и техника обучения, применяемые для разбора текстовых абзацев на английском языке. Было использовано понятие Чащи Разбора (ЧР). Чаща разбора представляет собой множество построенных для предложений абзаца деревьев синтаксического разбора, дополненное несинтаксическими связями «слово-слово», устанавливаемыми между предложениями. Были использованы такие типы связей, как перекрестные ссылки (кореферентные связи) и таксономические отношения. Также использовались связи, полученные на базе несинтаксических лингвистических теорий, в частности, Теории Речевых Актов и Теории Риторических Структур. Предлагаемый подход послужил объектом исследований в областях поиска товаров и нахождения рекомендаций на английском языке, в которых большинство поисковых запросов включает в себя несколько предложений. Данный подход был программно реализован, а результаты реализации размещены в открытом доступе в виде надстройки для поисковой машины Apache SOLR, благодаря чему предлагаемая технология может быть легко интегрирована с промышленным поисковыми системами.