Проблема идентификации именованных сущностей при их автоматическом извлечении

С. Ю. Толдова; Брыкина М. М.; Файнвейц А. В.

?

Проблема идентификации именованных сущностей при их автоматическом извлечении

Актуальные инновационные исследования: наука и практика. 2013. № 1.

Толдова С. Ю., Брыкина М. М., Файнвейц А. В.

Настоящая статья посвящена базовым параметрам системы извлечения из текста именованных сущностей, основанной на словарях. Компонент извлечения именованных сущностей используется во многих приложениях, в частности, весьма перспективным направлением является пополнение данных семантического веба (например, LOD-онтологий) информацией из неструктурированных источников (текстов). Основным объектом нашего внимания являются методы разрешения различной омонимии для именованных сущностей, основанные на словарях и регулируемые эвристическими правилами. Такого рода система позволяет, во-первых, обеспечить достаточно высокую точность выделения объектов. Во-вторых, она дает возможность пользователю-неспециалисту модифицировать и обновлять предметную область. В-третьих, вновь вводимые объекты также могут выделяться с высокой точностью. В статье представлена общая структура словарей, а также специфические для различных классов свойства синонимов, контекстных слов, выражений и объектов, которые могут обеспечить разрешение омонимии.

Язык: русский

Полный текст

Текст на другом сайте

Ключевые слова: извлечение информации из текстов именованные сущности онтологическая омонимия неструктурированные источники

Анализ культурных референций в творчестве А. Вознесенского: цифровое исследование имен персоналий

Тюрякова-Матвеева Д. В., Цифровые гуманитарные исследования 2026 № 1 С. 4–26

Статья исследует культурные референции в творчестве Андрея Вознесенского путем анализа упоминаемых им персоналий. Обработано 1678 произведений, включая поэзию, прозу и ранние неопубликованные стихотворения. Методы NER, основанные на инструментах Natasha, spaCy и LLM Grok, позволили изучить частоту упоминания известных лиц и их связь с жанром произведения. Определены ключевые авторы Вознесенского (Пастернак, Пушкин, Маяковский), выявлены особенности жанра ...

Добавлено: 31 мая 2026 г.

В генеральских руках Ерофея: О синтаксическом представлении именованных сущностей в поэтическом и исторических корпусах

Ляшевская О. Н., Журавлева А. А., В кн.: VII Международные Бодуэновские чтения: Международная конференция И.А. Бодуэн де Куртенэ и мировая лингвистика.: Каз.: Казанский (Приволжский) федеральный университет, 2019.

В статье анализируется смешанная адъективно-генитивная посессивная конструкция в контексте ее представления в синтаксическом формализме Universal Dependencies. Исследование выполнено на материалах частотных синтаксических баз данных поэтического и старорусского корпусов НКРЯ. ...

Добавлено: 15 декабря 2019 г.

Алгоритм автоматического выделения жалоб пациентов из историй болезни

Грибова В. В., Шахгельдян К. И., Шалфеева Е. А. и др., В кн.: Новые информационные технологии в автоматизированных системах: материалы двадцать второго научно-технического семинара.: М.: Институт прикладной математики им. М.В. Келдыша РАН, 2019. С. 204–209.

В настоящее время медицинские организации накапливают большой объем неструктурированной информации о пациентах, для обработки которой требуются алгоритмы формализации текста. Примером такой задачи является автоматическое извлечение жалоб пациентов и их характеристик из текстов историй болезни. В данной работе предлагается алгоритм, использующий синтаксический анализ текста истории болезни, с дальнейшим уточнением семантики при помощи онтологии, содержащей описание жалоб ...

Добавлено: 30 апреля 2019 г.

СЕМАНТИЧЕСКАЯ ОБРАБОТКА НЕСТРУКТУРИРОВАННЫХ ТЕКСТОВЫХ ДАННЫХ НА ОСНОВЕ ЛИНГВИСТИЧЕСКОГО ПРОЦЕССОРА PULLENTI

Козеренко Е. Б., Кузнецов К. И., Романов Д. А., Информатика и ее применения 2018 Т. 12 № 3 С. 91–98

Представлена методика создания систем извлечения знаний, основанная на подходе, главным инструментом которого является программный пакет PullEnti, включающий алгоритмы морфологического и семантико-синтаксического анализа для выделения сущностей определенных типов из текстов естественного языка (персоны, организации, локации и другие целевые семантические объекты). В системе PullEnti используются динамически подключаемые компоненты (плагины), что позволяет без перекомпилирования активировать различные функциональные возможности. ...

Добавлено: 19 декабря 2018 г.

Инструментальная система на базе языка шаблонов LSPL: новые средства и приложения

Большакова Е. И., Иванов К. М., Тодуа А. Р., В кн.: Ломоносовские чтения: научная конференция, Москва, факультет ВМК МГУ имени М.В. Ломоносова, 17-26 апреля 2017 г.: Тезисы докладов.: М.: МГУ, МАКС Пресс, 2017. С. 123–124.

Рассматриваются новые инструментальные средства, разработанные в рамках системы извлечения информации из русскоязычных текстов по лексико-синтаксическим шаблонам, а также созданные на их базе прикладные системы. ...

Добавлено: 5 сентября 2017 г.

Система для извлечения информации из текстов на базе лексико-синтаксических шаблонов

Большакова Е. И., Иванов К. М., Сапин А. С. и др., В кн.: Пятнадцатая национальная конференция по искусственному интеллекту с международным участием КИИ-2016 (3-7 октября 2016г., г.Смоленск, Россия): Труды конференцииТ. 1.: Смоленск: Универсум, 2016. С. 14–22.

Описывается текущее состояние программной системы с открытым кодом, разработанной и применяемой для построения различных приложений по извлечению информации из текстов на русском языке. Извлекаемая информация специфицируется в виде лексико-синтаксических шаблонов и правил языка LSPL. ...

Добавлено: 5 сентября 2017 г.

Система ALEX как средство для многоцелевой автоматизированной обработки текстов

Соколова Е. Г., Жигалов В., Кононенко И. С. и др., В кн.: Компьютерная лингвистика и интеллектуальные технологии. Труды международного семинара "Диалог'2002"Т. 2.: М.: ГУП Академический научно-издательский, производственно-полиграфический и книгораспространительский центр РАН "Издательство "Наука", 2002.

В статье представлена программе многоцелевой автоматизированной обработки текстов Alex . Основой системы является технология иерархических шаблонов, Средствами системы Alex разработан словарь и набор лексических шаблонов, позволяющий структурировать исходную информацию. ...

Добавлено: 7 апреля 2014 г.

Dictionary-based ambiguity resolution in Russian named-entities recognition. A case study

Brykina M. M., Толдова С. Ю., Faynveyts A. V., , in: Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 29 мая - 2 июня 2013 г.). В 2-х т.Т. 1: Основная программа конференции. Вып. 12 (19).: М.: РГГУ, 2013. P. 163–177.

The Information Extraction task and the task of Named Entities recognition (NER) in unstructured texts in particular, are essential for modern Mass Media systems. The paper presents a case study of NER system for Russian. The system was built and tested on the Russian news texts. The method of ambiguity resolution under discussion is based ...

Добавлено: 13 февраля 2014 г.

Современные проблемы и тенденции компьютерной лингвистики

Толдова С. Ю., Ляшевская О. Н., Вопросы языкознания 2014 № 1 С. 120–145

Статья посвящена обзору современных тематик и актуальных направлений компьютерной лингвистики на основе анализа материалов одной из конференции в этой области, а именно, 24-ой Международная конференция по компьютерной лингвистике Coling2012. В ней приводится анализ основных подходов и проблемных точек в таких традиционных областях автоматической обработки текста, как автоматический морфологический и синтаксический анализ, машинный перевод и др. ...

Добавлено: 15 октября 2013 г.

Новые технологические тренды: выявление в текстах на базе использования гибридных моделей и анализа временных рядов паттернов данных

Хорошевский В. Ф., Информационно-измерительные и управляющие системы 2013 Т. 11 № 5 С. 25–34

В настоящей работе обсуждаются вопросы автоматизации процессов выявления новых технологических трендов по текстовым коллекциям на основе гибридного подхода, ориентированного на интеграцию классических статистических методов и методов извлечения информации из текстов на основе системы индикаторов выявления объектов, характеризующих технологические тренды. Спецификой предлагаемого подхода является и то, что по результатам статистической обработки коллекций документов происходит формирование временных ...

Добавлено: 9 августа 2013 г.

Выявление новых технологических трендов: проблемы и перспективы

Хорошевский В. Ф., В кн.: Тринадцатая национальная конференция по искусственному интеллекту с международным участием КИИ-2012 (16-20 октября 2012 г., г. Белгород, Россия). Том 1Т. 1: Тринадцатая национальная конференция по искусственному интеллекту с международным участием КИИ-2012 (16-20 октября 2012 г., г. Белгород, Россия).: Белгород: Российская ассоциация искусственного интеллекта, 2012. С. 252–258.

В докладе обсуждаются вопросы автоматизации процессов выявления новых технологических трендов на основе обработки документов разных жанров. Представлен гибридный подход к выявлению новых технологических трендов, где для повышения качества результатов используются методы и средства статистической обработки коллекций документов, интегрированные с методами извлечения информации из текстов. ...

Добавлено: 15 января 2013 г.