• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • A
  • A
  • A
  • A
  • A
Обычная версия сайта
  • RU
  • EN
  • HSE University
  • Publications
  • Book chapter
  • Dictionary-based ambiguity resolution in Russian named-entities recognition. A case study
  • RU
  • EN
Расширенный поиск
Высшая школа экономики
Национальный исследовательский университет
Priority areas
  • business informatics
  • economics
  • engineering science
  • humanitarian
  • IT and mathematics
  • law
  • management
  • mathematics
  • sociology
  • state and public administration
by year
  • 2027
  • 2026
  • 2025
  • 2024
  • 2023
  • 2022
  • 2021
  • 2020
  • 2019
  • 2018
  • 2017
  • 2016
  • 2015
  • 2014
  • 2013
  • 2012
  • 2011
  • 2010
  • 2009
  • 2008
  • 2007
  • 2006
  • 2005
  • 2004
  • 2003
  • 2002
  • 2001
  • 2000
  • 1999
  • 1998
  • 1997
  • 1996
  • 1995
  • 1994
  • 1993
  • 1992
  • 1991
  • 1990
  • 1989
  • 1988
  • 1987
  • 1986
  • 1985
  • 1984
  • 1983
  • 1982
  • 1981
  • 1980
  • 1979
  • 1978
  • 1977
  • 1976
  • 1975
  • 1974
  • 1973
  • 1972
  • 1971
  • 1970
  • 1969
  • 1968
  • 1967
  • 1966
  • 1965
  • 1964
  • 1963
  • 1958
  • More
Subject
News
April 30, 2026
HSE Researchers Compile Scientific Database for Studying Childrens Eating Habits
The database created at HSE University can serve as a foundation for studying children’s eating habits. This is outlined in the study ‘The Influence of Age, Gender, and Social-Role Factors on Children’s Compliance with Age-Based Nutritional Norms: An Experimental Study Using the Dish-I-Wish Web Application.’ The work has been carried out as part of the HSE Basic Research Programme and was presented at the XXVI April International Academic Conference named after Evgeny Yasin.
April 30, 2026
New Foresight Centre Study Identifies the Most Destructive Global Trends for Humankind
A team of researchers from the HSE International Research and Educational Foresight Centre has examined how global trends affect the quality of human life—from life expectancy to professional fulfilment. The findings of the study titled ‘Human Capital Transformation under the Influence of Global Trends’ were published in Foresight.
April 28, 2026
Scientists Develop Algorithm for Accurate Financial Time Series Forecasting
Researchers at the HSE Faculty of Computer Science benchmarked more than 200,000 model configurations for predicting financial asset prices and realised volatility, showing that performance can be improved by filtering out noise at specific frequencies in advance. This technique increased accuracy in 65% of cases. The authors also developed their own algorithm, which achieves accuracy comparable to that of the best models while requiring less computational power. The study has been published in Applied Soft Computing.

 

Have you spotted a typo?
Highlight it, click Ctrl+Enter and send us a message. Thank you for your help!

Publications
  • Books
  • Articles
  • Chapters of books
  • Working papers
  • Report a publication
  • Research at HSE

?

Dictionary-based ambiguity resolution in Russian named-entities recognition. A case study

P. 163–177.
Brykina M. M., Toldova S., Faynveyts A. V.

The Information Extraction task and the task of Named Entities recognition (NER) in unstructured texts in particular, are essential for modern Mass Media systems. The paper presents a case study of NER system for Russian. The system was built and tested on the Russian news texts. The method of ambiguity resolution under discussion is based on dictionaries and heuristic rules. The dictionary-oriented approach is motivated by the set of strict initial requirements. First, the target set of Named Entities should be extracted with very high precision; second, the system should be easily adapted to a new domain by non-specialists; and third, these updates should result in the same high precision. We focus on the architecture of the dictionaries and on the properties that the dictionaries should have for each class of Named Entities in order to resolve ambiguous situations. The five classes under consideration are Person, Location, Organization, Product and Named Event. The properties and structure of synonyms and context words, expressions and entities necessary for disambiguation are discussed.

Language: English
Full text
Text on another site
Keywords: неструктурированная информацияunstructured dataизвлечение информации из текстовKnowledge Extractionизвлечение знанийавтоматический анализ текстаnamed entities disambiguationdictionary-based approachnamed entities recognitionименованные сущностионтологическая омонимия

In book

Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 29 мая - 2 июня 2013 г.). В 2-х т.
Т. 1: Основная программа конференции. Вып. 12 (19). , М.: РГГУ, 2013.
Similar publications
Автоматическое выявление побуждений в тексте: применение методов компьютерной лингвистики в работе эксперта-лингвиста
П.Е. Белова, А.К. Сафарян, В кн.: Научно-практическая конференция с международным участием "Национальные и международные тенденции и перспективы развития судебной экспертизы". Сборник докладов.: Н. Новгород: Изд-во ННГУ им. Н.И. Лобачевского, 2024.
В данной статье представлено описание системы автоматического поиска и извлечения побуждений из текстов на русском языке FindImper, основанной на поиске глагольных форм и синтаксических связей. Алгоритм реализован на языке программирования Python с использованием библиотек для морфологического и синтаксического анализа и набора правил. Данный инструмент направлен на оптимизацию работы эксперта-лингвиста и доступен к использованию через веб-сайт ...
Added: January 30, 2026
Несчастливы по-своему: как измерить тональность литературного текста?
Sherstinova T., Moskvina A., Kirina M. et al., В кн.: Труды международной конференции «Корпусная лингвистика — 2023».: СПб.: Издательство Санкт-Петербургского государственного университета, 2024. С. 232–240.
In the experimental study, the results of three different approaches to the evaluation of the tonality of literary texts are compared: dictionary-based, machine learning, and distributional semantics. The material for analysis was a selection of 210 stories by Russian writers from the first three decades of the 20th century. The research showed that the correlation ...
Added: December 9, 2023
Автоматизация процесса поиска побуждений и извлечения их из текста.
Белова П.Е., Safaryan A., В кн.: Современный медиатекст и судебная экспертиза: междисциплинарные связи и экспертная оценка: сборник научных работ по итогам Международной научно-практической конференции «Современный медиатекст и судебная экспертиза: междисциплинарные связи и экспертная оценка».: М.: ООО «СОЮЗКНИГ», 2023. С. 46–56.
В статье представлено описание системы автоматического поиска и извлечения побуждений из текстов на русском языке FindImper, основанной на поиске глагольных форм, выражающих значение побуждения, и реализованной на языке Python с использованием библиотек для морфологического и синтаксического анализа и набора правил. ...
Added: October 29, 2023
Извлечение ключевой информации из нормативных документов о политике продовольствия и питания в России
Милкова М. А., Неволин И. В., Пигорев Д. П., Экономическая наука современной России 2021 № 2 С. 101–114
This article is an attempt to comprehend the difficulties and propose approaches to eliminate them when analyzing legal documents in the framework of economic and interdisciplinary research. The utmost goal is to seek incorporating advances in computational linguistics and natural language analysis into the discourse of the digital economy in order to develop methods involved ...
Added: June 29, 2023
Оценка состояния объекта управления на основе универсального комплексного индикатора с использованием структурированных и неструктурированных данных
Bogdanova T., Zhukova L., Бизнес-информатика 2021 Т. 15 № 2 С. 21–33
Valuating the position of a controlled object using indicators which are management and control tools is widely used in many areas of the economy. Usually such indicators are based on internal data, however, as the volume of available open information grows, algorithms for valuation of the position of certain control objects and on open structured ...
Added: April 3, 2022
Analyzing COVID-19 Medical Papers Using Artificial Intelligence: Insights for Researchers and Medical Professionals
Dmitry Soshnikov, Petrova T., Soshnikova V. et al., Big Data and Cognitive Computing 2022 Vol. 6 No. 1 Article 4
Since the beginning of the COVID-19 pandemic almost two years ago, there have been more than 700,000 scientific papers published on the subject. An individual researcher cannot possibly get acquainted with such a huge text corpus and, therefore, some help from artificial intelligence (AI) is highly needed. We propose the AI-based tool to help researchers ...
Added: February 22, 2022
Chekhov's Gun Recognition
Tikhonov A., Yamshchikov I. P., / Series Computer Science "arxiv.org". 2021.
Chekhov's gun is a dramatic principle stating that every element in a story must be necessary, and irrelevant elements should be removed. This paper presents a new natural language processing task — Chekhov's gun recognition or (CGR) — recognition of entities that are pivotal for the development of the plot. Though similar to classical Named Entity Recognition ...
Added: December 3, 2021
Информационно-логическая модель экспресс-анализа соответствия состояния предприятия, удовлетворяющего нормативам и регламентам, на основе общедоступных данных
Bogdanova T., Zhukova L., Бизнес-информатика 2022 Т. 16 № 1 С. 42–55
В последние 10 лет наблюдается взрывной рост объемов информации, размещаемых в сети интернет и цифровой экономики, формирование официальных баз данных различных государственных органов власти. Наличие большой информационной базы, открытой для исследования, способствует развитию новых методов и подходов к решению аналитических задач. Построение систем управления и поддержки принятия решений на основе использования объединенных в единое целое разрозненных открытых источников данных позволяет ...
Added: June 29, 2021
Сравнительный анализ специальных корпусов текстов для задач безопасности
Лаврентьев А. М., Рябова Д. М., Тихомирова Е. А. et al., Вопросы кибербезопасности 2020 Т. 3 № 37 С. 58–65
The purpose of the study: development of a technique for comparing special text corpora for subsequent use in the identification of extremist texts Method: frequency methods and a specificity indicator for text analysis of the corpus platform TXM were used. Results: a methodology for comparative analysis of special text corpora has been developed, which makes ...
Added: October 31, 2020
Извлечение сценарной информации из текстов. Часть 1. Постановка задачи и обзор методов
Суворова М. И., Кобозева М. В., Toldova S. et al., Искусственный интеллект и принятие решений 2020 № 1 С. 17–26
В статье обсуждается важность автоматического сценарного анализа для понимания текстов на естественном языке. Дан широкий обзор методов и подходов к описанию и извлечению сценариев. Рассмотрены теоретические подходы к формализации сценариев. Приведен список задач, для решения которых используется информация о сценарной структуре текста. Представлены популярные подходы к автоматическому извлечению сценариев из текстов и методы оценки их ...
Added: April 22, 2020
В генеральских руках Ерофея: О синтаксическом представлении именованных сущностей в поэтическом и исторических корпусах
Lyashevskaya O., Журавлева А. А., В кн.: VII Международные Бодуэновские чтения: Международная конференция И.А. Бодуэн де Куртенэ и мировая лингвистика.: Каз.: Казанский (Приволжский) федеральный университет, 2019.
В статье анализируется смешанная адъективно-генитивная посессивная конструкция в контексте ее представления в синтаксическом формализме Universal Dependencies. Исследование выполнено на материалах частотных синтаксических баз данных поэтического и старорусского корпусов НКРЯ. ...
Added: December 15, 2019
The Entity Name Identification in Classification Algorithm: Testing the Advocacy Coalition Framework by Document Analysis (The Case of Russian Civil Society Policy)
Zaytsev D., Talovsky N., Kuskova V. et al., , in: Analysis of Images, Social Networks and Texts. 8th International Conference, AIST 2019, Lecture Notes in Computer Science, Revised Selected PapersVol. 11832.: Cham: Springer, 2019. P. 276–288.
This is an application of an advanced entity recognition algorithm to a large dataset. ...
Added: November 7, 2019
Network Analysis Methodology of Policy Actors Identification and Power Evaluation (the case of the Unified State Exam introduction in Russia)
Zaytsev D., Gregory Khvatsky, Talovsky N. et al., , in: Network Algorithms, Data Mining, and Applications. Springer Proceedings in Mathematics & Statistics.: Springer, 2020. P. 231–244.
This is an exploratory study of the effects of the Unified State Exam in Russia, using advanced network methodology. ...
Added: November 7, 2019
An Experimental Study of Hybrid Machine Learning Models for Extracting Named Entities
Lei J., Bolshakova E. I., , in: Proceedings of Third Workshop "Computational linguistics and language science"Issue 4.: Manchester: EasyChair, 2019. P. 50–60.
The paper describes two hybrid neural network models for named entity recognition (NER) in texts, namely Bi-LSTM-CRF and Gated-CNN-CRF, as well as results of experiments with them. ...
Added: November 3, 2019
Алгоритм автоматического выделения жалоб пациентов из историй болезни
Грибова В. В., Шахгельдян К. И., Шалфеева Е. А. et al., В кн.: Новые информационные технологии в автоматизированных системах: материалы двадцать второго научно-технического семинара.: М.: Институт прикладной математики им. М.В. Келдыша РАН, 2019. С. 204–209.
В настоящее время медицинские организации накапливают большой объем неструктурированной информации о пациентах, для обработки которой требуются алгоритмы формализации текста. Примером такой задачи является автоматическое извлечение жалоб пациентов и их характеристик из текстов историй болезни. В данной работе предлагается алгоритм, использующий синтаксический анализ текста истории болезни, с дальнейшим уточнением семантики при помощи онтологии, содержащей описание жалоб ...
Added: April 30, 2019
СЕМАНТИЧЕСКАЯ ОБРАБОТКА НЕСТРУКТУРИРОВАННЫХ ТЕКСТОВЫХ ДАННЫХ НА ОСНОВЕ ЛИНГВИСТИЧЕСКОГО ПРОЦЕССОРА PULLENTI
Козеренко Е. Б., Кузнецов К. И., Romanov D. A., Информатика и ее применения 2018 Т. 12 № 3 С. 91–98
The paper presents the method for creation of knowledge extraction systems based on the approach employing the software tool system PullEnti comprising the algorithms for morphological and semantic-syntactical analysis which makes it possible to extract entities of certain types from natural language texts (persons, organizations, locations, and other target semantic objects). The PullEnti system uses ...
Added: December 19, 2018
К вопросу о разработке адаптивной интеллектуальной системы поддержки принятия решений
Silaev Y., Информатизация и связь 2017 № 1 С. 102–104
Рассматривается проблема создания интеллектуальной системы поддержки принятия решений, адаптивной к любой предметной области. Показано место системы в деятельности руководства различных уровней. Представлена структурная схема системы. Приведены преимущества предлагаемой системы. ...
Added: December 12, 2018
Semantic Proximity Establishment in the Tasks of Knowledge Extraction and Named Entities Recognition
Kozerenko E. B., Kuznetsov K. I., Morozova Y. I. et al., , in: PROCEEDINGS OFTHE 2017 INTERNATIONAL CONFERENCE ON ARTIFICIAL INTELLIGENCE.: American Council on Science & Education, 2017. P. 339–344.
The paper deals with the problem of establishing text segments containing the similar semantic units for the tasks of analytical text processing within the semantic technology platform. The methods and instruments presented in the paper provide the discovery of relevant content based on users' focused interests within a certain domain. The hybrid approach comprising linguistic ...
Added: February 23, 2018
Инструментальная система на базе языка шаблонов LSPL: новые средства и приложения
Bolshakova E. I., Иванов К. М., Тодуа А. Р., В кн.: Ломоносовские чтения: научная конференция, Москва, факультет ВМК МГУ имени М.В. Ломоносова, 17-26 апреля 2017 г.: Тезисы докладов.: М.: МГУ, МАКС Пресс, 2017. С. 123–124.
Рассматриваются новые инструментальные средства, разработанные в рамках системы извлечения информации из русскоязычных текстов по лексико-синтаксическим шаблонам, а также созданные на их базе прикладные системы. ...
Added: September 5, 2017
  • About
  • About
  • Key Figures & Facts
  • Sustainability at HSE University
  • Faculties & Departments
  • International Partnerships
  • Faculty & Staff
  • HSE Buildings
  • HSE University for Persons with Disabilities
  • Public Enquiries
  • Studies
  • Admissions
  • Programme Catalogue
  • Undergraduate
  • Graduate
  • Exchange Programmes
  • Summer University
  • Summer Schools
  • Semester in Moscow
  • Business Internship
  • Research
  • International Laboratories
  • Research Centres
  • Research Projects
  • Monitoring Studies
  • Conferences & Seminars
  • Academic Jobs
  • Yasin (April) International Academic Conference on Economic and Social Development
  • Media & Resources
  • Publications by staff
  • HSE Journals
  • Publishing House
  • iq.hse.ru: commentary by HSE experts
  • Library
  • Economic & Social Data Archive
  • Video
  • HSE Repository of Socio-Economic Information
  • HSE1993–2026
  • Contacts
  • Copyright
  • Privacy Policy
  • Site Map
Edit