?
Проблема идентификации именованных сущностей при их автоматическом извлечении
Настоящая статья посвящена базовым параметрам системы извлечения из текста именованных сущностей, основанной на словарях. Компонент извлечения именованных сущностей используется во многих приложениях, в частности, весьма перспективным направлением является пополнение данных семантического веба (например, LOD-онтологий) информацией из неструктурированных источников (текстов). Основным объектом нашего внимания являются методы разрешения различной омонимии для именованных сущностей, основанные на словарях и регулируемые эвристическими правилами. Такого рода система позволяет, во-первых, обеспечить достаточно высокую точность выделения объектов. Во-вторых, она дает возможность пользователю-неспециалисту модифицировать и обновлять предметную область. В-третьих, вновь вводимые объекты также могут выделяться с высокой точностью. В статье представлена общая структура словарей, а также специфические для различных классов свойства синонимов, контекстных слов, выражений и объектов, которые могут обеспечить разрешение омонимии.