Dictionary-based ambiguity resolution in Russian named-entities recognition. A case study

Brykina M. M.; S. Toldova; Faynveyts A. V.

?

Dictionary-based ambiguity resolution in Russian named-entities recognition. A case study

P. 163–177.

Brykina M. M., Toldova S., Faynveyts A. V.

The Information Extraction task and the task of Named Entities recognition (NER) in unstructured texts in particular, are essential for modern Mass Media systems. The paper presents a case study of NER system for Russian. The system was built and tested on the Russian news texts. The method of ambiguity resolution under discussion is based on dictionaries and heuristic rules. The dictionary-oriented approach is motivated by the set of strict initial requirements. First, the target set of Named Entities should be extracted with very high precision; second, the system should be easily adapted to a new domain by non-specialists; and third, these updates should result in the same high precision. We focus on the architecture of the dictionaries and on the properties that the dictionaries should have for each class of Named Entities in order to resolve ambiguous situations. The five classes under consideration are Person, Location, Organization, Product and Named Event. The properties and structure of synonyms and context words, expressions and entities necessary for disambiguation are discussed.

Language: English

Full text

Text on another site

Keywords: неструктурированная информация unstructured data извлечение информации из текстов Knowledge Extraction извлечение знаний автоматический анализ текста named entities disambiguation dictionary-based approach named entities recognition именованные сущности онтологическая омонимия

In book

Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 29 мая - 2 июня 2013 г.). В 2-х т.

Т. 1: Основная программа конференции. Вып. 12 (19). , М.: РГГУ, 2013.

Анализ культурных референций в творчестве А. Вознесенского: цифровое исследование имен персоналий

Tyuryakova-Matveeva D., Цифровые гуманитарные исследования 2026 № 1 С. 4–26

The article explores cultural references in the works of Andrei Voznesensky by analyzing the personalities he mentions. A total of 1,678 works were processed, including poetry, prose, and early unpublished poems. NER methods based on Natasha, spaCy, and LLM Grok tools made it possible to study the frequency of mentions of famous people and their ...

Added: May 31, 2026

Автоматическое выявление побуждений в тексте: применение методов компьютерной лингвистики в работе эксперта-лингвиста

П.Е. Белова, А.К. Сафарян, В кн.: Научно-практическая конференция с международным участием "Национальные и международные тенденции и перспективы развития судебной экспертизы". Сборник докладов.: Н. Новгород: Изд-во ННГУ им. Н.И. Лобачевского, 2024.

В данной статье представлено описание системы автоматического поиска и извлечения побуждений из текстов на русском языке FindImper, основанной на поиске глагольных форм и синтаксических связей. Алгоритм реализован на языке программирования Python с использованием библиотек для морфологического и синтаксического анализа и набора правил. Данный инструмент направлен на оптимизацию работы эксперта-лингвиста и доступен к использованию через веб-сайт ...

Added: January 30, 2026

Несчастливы по-своему: как измерить тональность литературного текста?

Sherstinova T., Moskvina A., Kirina M. et al., В кн.: Труды международной конференции «Корпусная лингвистика — 2023».: СПб.: Издательство Санкт-Петербургского государственного университета, 2024. С. 232–240.

In the experimental study, the results of three different approaches to the evaluation of the tonality of literary texts are compared: dictionary-based, machine learning, and distributional semantics. The material for analysis was a selection of 210 stories by Russian writers from the first three decades of the 20th century. The research showed that the correlation ...

Added: December 9, 2023

Автоматизация процесса поиска побуждений и извлечения их из текста.

Белова П.Е., Safaryan A., В кн.: Современный медиатекст и судебная экспертиза: междисциплинарные связи и экспертная оценка: сборник научных работ по итогам Международной научно-практической конференции «Современный медиатекст и судебная экспертиза: междисциплинарные связи и экспертная оценка».: М.: ООО «СОЮЗКНИГ», 2023. С. 46–56.

В статье представлено описание системы автоматического поиска и извлечения побуждений из текстов на русском языке FindImper, основанной на поиске глагольных форм, выражающих значение побуждения, и реализованной на языке Python с использованием библиотек для морфологического и синтаксического анализа и набора правил. ...

Added: October 29, 2023

Извлечение ключевой информации из нормативных документов о политике продовольствия и питания в России

Милкова М. А., Неволин И. В., Пигорев Д. П., Экономическая наука современной России 2021 № 2 С. 101–114

This article is an attempt to comprehend the difficulties and propose approaches to eliminate them when analyzing legal documents in the framework of economic and interdisciplinary research. The utmost goal is to seek incorporating advances in computational linguistics and natural language analysis into the discourse of the digital economy in order to develop methods involved ...

Added: June 29, 2023

Оценка состояния объекта управления на основе универсального комплексного индикатора с использованием структурированных и неструктурированных данных

Bogdanova T., Zhukova L., Бизнес-информатика 2021 Т. 15 № 2 С. 21–33

Valuating the position of a controlled object using indicators which are management and control tools is widely used in many areas of the economy. Usually such indicators are based on internal data, however, as the volume of available open information grows, algorithms for valuation of the position of certain control objects and on open structured ...

Added: April 3, 2022

Analyzing COVID-19 Medical Papers Using Artificial Intelligence: Insights for Researchers and Medical Professionals

Dmitry Soshnikov, Petrova T., Soshnikova V. et al., Big Data and Cognitive Computing 2022 Vol. 6 No. 1 Article 4

Since the beginning of the COVID-19 pandemic almost two years ago, there have been more than 700,000 scientific papers published on the subject. An individual researcher cannot possibly get acquainted with such a huge text corpus and, therefore, some help from artificial intelligence (AI) is highly needed. We propose the AI-based tool to help researchers ...

Added: February 22, 2022

Chekhov's Gun Recognition

Tikhonov A., Yamshchikov I. P., / Series Computer Science "arxiv.org". 2021.

Chekhov's gun is a dramatic principle stating that every element in a story must be necessary, and irrelevant elements should be removed. This paper presents a new natural language processing task — Chekhov's gun recognition or (CGR) — recognition of entities that are pivotal for the development of the plot. Though similar to classical Named Entity Recognition ...

Added: December 3, 2021

Информационно-логическая модель экспресс-анализа соответствия состояния предприятия, удовлетворяющего нормативам и регламентам, на основе общедоступных данных

Bogdanova T., Zhukova L., Бизнес-информатика 2022 Т. 16 № 1 С. 42–55

В последние 10 лет наблюдается взрывной рост объемов информации, размещаемых в сети интернет и цифровой экономики, формирование официальных баз данных различных государственных органов власти. Наличие большой информационной базы, открытой для исследования, способствует развитию новых методов и подходов к решению аналитических задач. Построение систем управления и поддержки принятия решений на основе использования объединенных в единое целое разрозненных открытых источников данных позволяет ...

Added: June 29, 2021

Сравнительный анализ специальных корпусов текстов для задач безопасности

Лаврентьев А. М., Рябова Д. М., Тихомирова Е. А. et al., Вопросы кибербезопасности 2020 Т. 3 № 37 С. 58–65

The purpose of the study: development of a technique for comparing special text corpora for subsequent use in the identification of extremist texts Method: frequency methods and a specificity indicator for text analysis of the corpus platform TXM were used. Results: a methodology for comparative analysis of special text corpora has been developed, which makes ...

Added: October 31, 2020

Извлечение сценарной информации из текстов. Часть 1. Постановка задачи и обзор методов

Суворова М. И., Кобозева М. В., Toldova S. et al., Искусственный интеллект и принятие решений 2020 № 1 С. 17–26

В статье обсуждается важность автоматического сценарного анализа для понимания текстов на естественном языке. Дан широкий обзор методов и подходов к описанию и извлечению сценариев. Рассмотрены теоретические подходы к формализации сценариев. Приведен список задач, для решения которых используется информация о сценарной структуре текста. Представлены популярные подходы к автоматическому извлечению сценариев из текстов и методы оценки их ...

Added: April 22, 2020

В генеральских руках Ерофея: О синтаксическом представлении именованных сущностей в поэтическом и исторических корпусах

Lyashevskaya O., Журавлева А. А., В кн.: VII Международные Бодуэновские чтения: Международная конференция И.А. Бодуэн де Куртенэ и мировая лингвистика.: Каз.: Казанский (Приволжский) федеральный университет, 2019.

В статье анализируется смешанная адъективно-генитивная посессивная конструкция в контексте ее представления в синтаксическом формализме Universal Dependencies. Исследование выполнено на материалах частотных синтаксических баз данных поэтического и старорусского корпусов НКРЯ. ...

Added: December 15, 2019

The Entity Name Identification in Classification Algorithm: Testing the Advocacy Coalition Framework by Document Analysis (The Case of Russian Civil Society Policy)

Zaytsev D., Talovsky N., Kuskova V. et al., , in: Analysis of Images, Social Networks and Texts. 8th International Conference, AIST 2019, Lecture Notes in Computer Science, Revised Selected PapersVol. 11832.: Cham: Springer, 2019. P. 276–288.

This is an application of an advanced entity recognition algorithm to a large dataset. ...

Added: November 7, 2019

Network Analysis Methodology of Policy Actors Identification and Power Evaluation (the case of the Unified State Exam introduction in Russia)

Zaytsev D., Gregory Khvatsky, Talovsky N. et al., , in: Network Algorithms, Data Mining, and Applications. Springer Proceedings in Mathematics & Statistics.: Springer, 2020. P. 231–244.

This is an exploratory study of the effects of the Unified State Exam in Russia, using advanced network methodology. ...

Added: November 7, 2019

An Experimental Study of Hybrid Machine Learning Models for Extracting Named Entities

Lei J., Bolshakova E. I., , in: Proceedings of Third Workshop "Computational linguistics and language science"Issue 4.: Manchester: EasyChair, 2019. P. 50–60.

The paper describes two hybrid neural network models for named entity recognition (NER) in texts, namely Bi-LSTM-CRF and Gated-CNN-CRF, as well as results of experiments with them. ...

Added: November 3, 2019

Алгоритм автоматического выделения жалоб пациентов из историй болезни

Грибова В. В., Шахгельдян К. И., Шалфеева Е. А. et al., В кн.: Новые информационные технологии в автоматизированных системах: материалы двадцать второго научно-технического семинара.: М.: Институт прикладной математики им. М.В. Келдыша РАН, 2019. С. 204–209.

В настоящее время медицинские организации накапливают большой объем неструктурированной информации о пациентах, для обработки которой требуются алгоритмы формализации текста. Примером такой задачи является автоматическое извлечение жалоб пациентов и их характеристик из текстов историй болезни. В данной работе предлагается алгоритм, использующий синтаксический анализ текста истории болезни, с дальнейшим уточнением семантики при помощи онтологии, содержащей описание жалоб ...

Added: April 30, 2019

СЕМАНТИЧЕСКАЯ ОБРАБОТКА НЕСТРУКТУРИРОВАННЫХ ТЕКСТОВЫХ ДАННЫХ НА ОСНОВЕ ЛИНГВИСТИЧЕСКОГО ПРОЦЕССОРА PULLENTI

Козеренко Е. Б., Кузнецов К. И., Romanov D. A., Информатика и ее применения 2018 Т. 12 № 3 С. 91–98

The paper presents the method for creation of knowledge extraction systems based on the approach employing the software tool system PullEnti comprising the algorithms for morphological and semantic-syntactical analysis which makes it possible to extract entities of certain types from natural language texts (persons, organizations, locations, and other target semantic objects). The PullEnti system uses ...

Added: December 19, 2018

К вопросу о разработке адаптивной интеллектуальной системы поддержки принятия решений

Silaev Y., Информатизация и связь 2017 № 1 С. 102–104

Рассматривается проблема создания интеллектуальной системы поддержки принятия решений, адаптивной к любой предметной области. Показано место системы в деятельности руководства различных уровней. Представлена структурная схема системы. Приведены преимущества предлагаемой системы. ...

Added: December 12, 2018

Semantic Proximity Establishment in the Tasks of Knowledge Extraction and Named Entities Recognition

Kozerenko E. B., Kuznetsov K. I., Morozova Y. I. et al., , in: PROCEEDINGS OFTHE 2017 INTERNATIONAL CONFERENCE ON ARTIFICIAL INTELLIGENCE.: American Council on Science & Education, 2017. P. 339–344.

The paper deals with the problem of establishing text segments containing the similar semantic units for the tasks of analytical text processing within the semantic technology platform. The methods and instruments presented in the paper provide the discovery of relevant content based on users' focused interests within a certain domain. The hybrid approach comprising linguistic ...

Added: February 23, 2018