• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Статья

Проблема идентификации именованных сущностей при их автоматическом извлечении

Толдова С. Ю., Брыкина М. М., Файнвейц А. В.

Настоящая статья посвящена базовым параметрам системы извлечения из текста именованных сущностей, основанной на словарях. Компонент извлечения именованных сущностей используется во многих приложениях, в частности, весьма перспективным направлением является пополнение данных семантического веба (например, LOD-онтологий) информацией из неструктурированных источников (текстов). Основным объектом нашего внимания являются методы разрешения различной омонимии для именованных сущностей, основанные на словарях и регулируемые эвристическими правилами. Такого рода система позволяет, во-первых, обеспечить достаточно высокую точность выделения объектов. Во-вторых, она дает возможность пользователю-неспециалисту модифицировать и обновлять предметную область. В-третьих, вновь вводимые объекты также могут выделяться с высокой точностью. В статье представлена общая структура словарей, а также специфические для различных классов свойства синонимов, контекстных слов, выражений и объектов, которые могут обеспечить разрешение омонимии.