• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • A
  • A
  • A
  • A
  • A
Обычная версия сайта
  • RU
  • EN
  • Национальный исследовательский университет «Высшая школа экономики»
  • Публикации ВШЭ
  • Глава
  • Dictionary-based ambiguity resolution in Russian named-entities recognition. A case study
  • RU
  • EN
Расширенный поиск
Высшая школа экономики
Национальный исследовательский университет
Приоритетные направления
  • бизнес-информатика
  • государственное и муниципальное управление
  • гуманитарные науки
  • инженерные науки
  • компьютерно-математическое
  • математика
  • менеджмент
  • право
  • социология
  • экономика
по году
  • 2027
  • 2026
  • 2025
  • 2024
  • 2023
  • 2022
  • 2021
  • 2020
  • 2019
  • 2018
  • 2017
  • 2016
  • 2015
  • 2014
  • 2013
  • 2012
  • 2011
  • 2010
  • 2009
  • 2008
  • 2007
  • 2006
  • 2005
  • 2004
  • 2003
  • 2002
  • 2001
  • 2000
  • 1999
  • 1998
  • 1997
  • 1996
  • 1995
  • 1994
  • 1993
  • 1992
  • 1991
  • 1990
  • 1989
  • 1988
  • 1987
  • 1986
  • 1985
  • 1984
  • 1983
  • 1982
  • 1981
  • 1980
  • 1979
  • 1978
  • 1977
  • 1976
  • 1975
  • 1974
  • 1973
  • 1972
  • 1971
  • 1970
  • 1969
  • 1968
  • 1967
  • 1966
  • 1965
  • 1964
  • 1963
  • 1958
  • еще
Тематика
Новости
20 мая 2026 г.
Творческая работа как лекарство от выгорания
Творческая и доброжелательная атмосфера, новые методы в Международной лаборатории (впоследствии центре) социокультурных исследований привлекают молодых исследователей. За годы работы в Вышке они становятся учеными и преподавателями, известными в России и за рубежом. О своем пути в центре и в Вышке, исследованиях и роли наставников в научных успехах рассказали главный научный сотрудник ЦСКИ Зарина Лепшокова и ведущий научный сотрудник Екатерина Бушина.
19 мая 2026 г.
Физики НИУ ВШЭ выяснили, что происходит внутри устойчивого вихря
В атмосфере и в океане часто наблюдаются крупные вихри с характерными спиральными рукавами. Физики из НИУ ВШЭ объяснили, как они формируются и почему сохраняют свою структуру. Оказалось, что скорости в точках, расположенных вдоль одной дуги вихря, остаются связанными даже на больших расстояниях. При этом в направлении от центра вихря эта связь быстро ослабевает. Такие различия помогают объяснить образование рукавов и могут улучшить модели атмосферных и океанических течений. Результаты опубликованы в Physical Review Fluids.
18 мая 2026 г.
В Вышке прошла XXX юбилейная научно-техническая конференция имени Е.В. Арменского
Организатором научного события выступает Московский институт электроники и математики им. А.Н. Тихонова ВШЭ. В этом году главный инженерный студенческий форум проходил 30-й раз и собрал рекордное число участников. Студенты, аспиранты и молодые специалисты из 50 вузов и организаций России представили научно-исследовательские доклады в ИТ-области. Отдельная секция была посвящена научно-исследовательским работам школьников.

 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!

Публикации
  • Книги
  • Статьи
  • Главы в книгах
  • Препринты
  • Верификация публикаций
  • Расширенный поиск
  • Правила использования материалов
  • Наука в ВШЭ

?

Dictionary-based ambiguity resolution in Russian named-entities recognition. A case study

P. 163–177.
Brykina M. M., Толдова С. Ю., Faynveyts A. V.

The Information Extraction task and the task of Named Entities recognition (NER) in unstructured texts in particular, are essential for modern Mass Media systems. The paper presents a case study of NER system for Russian. The system was built and tested on the Russian news texts. The method of ambiguity resolution under discussion is based on dictionaries and heuristic rules. The dictionary-oriented approach is motivated by the set of strict initial requirements. First, the target set of Named Entities should be extracted with very high precision; second, the system should be easily adapted to a new domain by non-specialists; and third, these updates should result in the same high precision. We focus on the architecture of the dictionaries and on the properties that the dictionaries should have for each class of Named Entities in order to resolve ambiguous situations. The five classes under consideration are Person, Location, Organization, Product and Named Event. The properties and structure of synonyms and context words, expressions and entities necessary for disambiguation are discussed.

Язык: английский
Полный текст
Текст на другом сайте
Ключевые слова: неструктурированная информацияunstructured dataизвлечение информации из текстовKnowledge Extractionизвлечение знанийавтоматический анализ текстаnamed entities disambiguationdictionary-based approachnamed entities recognitionименованные сущностионтологическая омонимия

В книге

Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 29 мая - 2 июня 2013 г.). В 2-х т.
Т. 1: Основная программа конференции. Вып. 12 (19). , М.: РГГУ, 2013.
Похожие публикации
Автоматическое выявление побуждений в тексте: применение методов компьютерной лингвистики в работе эксперта-лингвиста
П.Е. Белова, А.К. Сафарян, В кн.: Научно-практическая конференция с международным участием "Национальные и международные тенденции и перспективы развития судебной экспертизы". Сборник докладов.: Н. Новгород: Изд-во ННГУ им. Н.И. Лобачевского, 2024.
В данной статье представлено описание системы автоматического поиска и извлечения побуждений из текстов на русском языке FindImper, основанной на поиске глагольных форм и синтаксических связей. Алгоритм реализован на языке программирования Python с использованием библиотек для морфологического и синтаксического анализа и набора правил. Данный инструмент направлен на оптимизацию работы эксперта-лингвиста и доступен к использованию через веб-сайт ...
Добавлено: 30 января 2026 г.
Несчастливы по-своему: как измерить тональность литературного текста?
Шерстинова Т. Ю., Москвина А. Д., Кирина М. А. и др., В кн.: Труды международной конференции «Корпусная лингвистика — 2023».: СПб.: Издательство Санкт-Петербургского государственного университета, 2024. С. 232–240.
В экспериментальном исследовании сравниваются резуль­таты трех разных подходов к оценке тональности художественного текста: словарного, машинного обучения и дистрибутивной семантики. Материа­лом для анализа стала выборка в 210 рассказов русских писателей первых трех десятилетий XX в. Проведенное исследование показало, что корреля­ция между результатами сентимент-анализа, полученного тремя разными методами, в большинстве случаев статистически значима, но невелика по модулю. ...
Добавлено: 9 декабря 2023 г.
Автоматизация процесса поиска побуждений и извлечения их из текста.
Белова П.Е., Сафарян А. К., В кн.: Современный медиатекст и судебная экспертиза: междисциплинарные связи и экспертная оценка: сборник научных работ по итогам Международной научно-практической конференции «Современный медиатекст и судебная экспертиза: междисциплинарные связи и экспертная оценка».: М.: ООО «СОЮЗКНИГ», 2023. С. 46–56.
В статье представлено описание системы автоматического поиска и извлечения побуждений из текстов на русском языке FindImper, основанной на поиске глагольных форм, выражающих значение побуждения, и реализованной на языке Python с использованием библиотек для морфологического и синтаксического анализа и набора правил. ...
Добавлено: 29 октября 2023 г.
Извлечение ключевой информации из нормативных документов о политике продовольствия и питания в России
Милкова М. А., Неволин И. В., Пигорев Д. П., Экономическая наука современной России 2021 № 2 С. 101–114
В статье демонстрируется подход к устранению сложностей, возникающих при анализе правовых документов в рамках экономических и междисциплинарных исследований. В условиях роста объема и постоянного обновления информации и (или) появления новой области исследований наиболее целесообразным на первом этапе является получение общей структуры всей коллекции документов, некая семантическая компрессия информации. Цель работы – ​продемонстрировать возможности применения методов ...
Добавлено: 29 июня 2023 г.
Оценка состояния объекта управления на основе универсального комплексного индикатора с использованием структурированных и неструктурированных данных
Богданова Т. К., Жукова Л. В., Бизнес-информатика 2021 Т. 15 № 2 С. 21–33
Оценивание состояния объекта управления с помощью индикаторов, являющихся инструментами управления и контроля, активно используется во многих сферах экономики. Как правило, такие индикаторы строятся на основе внутренних данных. Однако с ростом объемов доступной открытой информации появляются алгоритмы оценки состояния определенных объектов управления с использованием открытых структурированных данных. Недостатком этих моделей является их узкая специализация и привязка ...
Добавлено: 3 апреля 2022 г.
Analyzing COVID-19 Medical Papers Using Artificial Intelligence: Insights for Researchers and Medical Professionals
Dmitry Soshnikov, Petrova T., Soshnikova V. и др., Big Data and Cognitive Computing 2022 Vol. 6 No. 1 Article 4
Since the beginning of the COVID-19 pandemic almost two years ago, there have been more than 700,000 scientific papers published on the subject. An individual researcher cannot possibly get acquainted with such a huge text corpus and, therefore, some help from artificial intelligence (AI) is highly needed. We propose the AI-based tool to help researchers ...
Добавлено: 22 февраля 2022 г.
Chekhov's Gun Recognition
Tikhonov A., Ямщиков И. П., / Series Computer Science "arxiv.org". 2021.
Chekhov's gun is a dramatic principle stating that every element in a story must be necessary, and irrelevant elements should be removed. This paper presents a new natural language processing task — Chekhov's gun recognition or (CGR) — recognition of entities that are pivotal for the development of the plot. Though similar to classical Named Entity Recognition ...
Добавлено: 3 декабря 2021 г.
Информационно-логическая модель экспресс-анализа соответствия состояния предприятия, удовлетворяющего нормативам и регламентам, на основе общедоступных данных
Богданова Т. К., Жукова Л. В., Бизнес-информатика 2022 Т. 16 № 1 С. 42–55
В последние 10 лет наблюдается взрывной рост объемов информации, размещаемых в сети интернет и цифровой экономики, формирование официальных баз данных различных государственных органов власти. Наличие большой информационной базы, открытой для исследования, способствует развитию новых методов и подходов к решению аналитических задач. Построение систем управления и поддержки принятия решений на основе использования объединенных в единое целое разрозненных открытых источников данных позволяет ...
Добавлено: 29 июня 2021 г.
Сравнительный анализ специальных корпусов текстов для задач безопасности
Лаврентьев А. М., Рябова Д. М., Тихомирова Е. А. и др., Вопросы кибербезопасности 2020 Т. 3 № 37 С. 58–65
Цель исследования: разработка методики сравнения специальных корпусов текстов для последующего применения в задачах идентификации экстремистских текстов. Метод: применялись частотные методы и показатель специфичности для анализа текстов в рамках корпусной платформы TXM. Полученные результаты: разработана методика сравнительного анализа специальных корпусов текстов, которая позволяет выявлять неявные связи между корпусами разнородных текстов; показана возможность использования индекса специфичности для ...
Добавлено: 31 октября 2020 г.
Извлечение сценарной информации из текстов. Часть 1. Постановка задачи и обзор методов
Суворова М. И., Кобозева М. В., Толдова С. Ю. и др., Искусственный интеллект и принятие решений 2020 № 1 С. 17–26
В статье обсуждается важность автоматического сценарного анализа для понимания текстов на естественном языке. Дан широкий обзор методов и подходов к описанию и извлечению сценариев. Рассмотрены теоретические подходы к формализации сценариев. Приведен список задач, для решения которых используется информация о сценарной структуре текста. Представлены популярные подходы к автоматическому извлечению сценариев из текстов и методы оценки их ...
Добавлено: 22 апреля 2020 г.
В генеральских руках Ерофея: О синтаксическом представлении именованных сущностей в поэтическом и исторических корпусах
Ляшевская О. Н., Журавлева А. А., В кн.: VII Международные Бодуэновские чтения: Международная конференция И.А. Бодуэн де Куртенэ и мировая лингвистика.: Каз.: Казанский (Приволжский) федеральный университет, 2019.
В статье анализируется смешанная адъективно-генитивная посессивная конструкция в контексте ее представления в синтаксическом формализме Universal Dependencies. Исследование выполнено на материалах частотных синтаксических баз данных поэтического и старорусского корпусов НКРЯ. ...
Добавлено: 15 декабря 2019 г.
The Entity Name Identification in Classification Algorithm: Testing the Advocacy Coalition Framework by Document Analysis (The Case of Russian Civil Society Policy)
Зайцев Д. Г., Таловский Н. И., Кускова В. В. и др., , in: Analysis of Images, Social Networks and Texts. 8th International Conference, AIST 2019, Lecture Notes in Computer Science, Revised Selected PapersVol. 11832.: Cham: Springer, 2019. P. 276–288.
Добавлено: 7 ноября 2019 г.
Network Analysis Methodology of Policy Actors Identification and Power Evaluation (the case of the Unified State Exam introduction in Russia)
Зайцев Д. Г., Gregory Khvatsky, Таловский Н. И. и др., , in: Network Algorithms, Data Mining, and Applications. Springer Proceedings in Mathematics & Statistics.: Springer, 2020. P. 231–244.
Добавлено: 7 ноября 2019 г.
An Experimental Study of Hybrid Machine Learning Models for Extracting Named Entities
Lei J., Большакова Е. И., , in: Proceedings of Third Workshop "Computational linguistics and language science"Issue 4.: Manchester: EasyChair, 2019. P. 50–60.
Добавлено: 3 ноября 2019 г.
Алгоритм автоматического выделения жалоб пациентов из историй болезни
Грибова В. В., Шахгельдян К. И., Шалфеева Е. А. и др., В кн.: Новые информационные технологии в автоматизированных системах: материалы двадцать второго научно-технического семинара.: М.: Институт прикладной математики им. М.В. Келдыша РАН, 2019. С. 204–209.
В настоящее время медицинские организации накапливают большой объем неструктурированной информации о пациентах, для обработки которой требуются алгоритмы формализации текста. Примером такой задачи является автоматическое извлечение жалоб пациентов и их характеристик из текстов историй болезни. В данной работе предлагается алгоритм, использующий синтаксический анализ текста истории болезни, с дальнейшим уточнением семантики при помощи онтологии, содержащей описание жалоб ...
Добавлено: 30 апреля 2019 г.
СЕМАНТИЧЕСКАЯ ОБРАБОТКА НЕСТРУКТУРИРОВАННЫХ ТЕКСТОВЫХ ДАННЫХ НА ОСНОВЕ ЛИНГВИСТИЧЕСКОГО ПРОЦЕССОРА PULLENTI
Козеренко Е. Б., Кузнецов К. И., Романов Д. А., Информатика и ее применения 2018 Т. 12 № 3 С. 91–98
Представлена методика создания систем извлечения знаний, основанная на подходе, главным инструментом которого является программный пакет PullEnti, включающий алгоритмы морфологического и семантико-синтаксического анализа для выделения сущностей определенных типов из текстов естественного языка (персоны, организации, локации и другие целевые семантические объекты). В системе PullEnti используются динамически подключаемые компоненты (плагины), что позволяет без перекомпилирования активировать различные функциональные возможности. ...
Добавлено: 19 декабря 2018 г.
К вопросу о разработке адаптивной интеллектуальной системы поддержки принятия решений
Силаев Ю. В., Информатизация и связь 2017 № 1 С. 102–104
Рассматривается проблема создания интеллектуальной системы поддержки принятия решений, адаптивной к любой предметной области. Показано место системы в деятельности руководства различных уровней. Представлена структурная схема системы. Приведены преимущества предлагаемой системы. ...
Добавлено: 12 декабря 2018 г.
Semantic Proximity Establishment in the Tasks of Knowledge Extraction and Named Entities Recognition
Kozerenko E. B., Kuznetsov K. I., Morozova Y. I. и др., , in: PROCEEDINGS OFTHE 2017 INTERNATIONAL CONFERENCE ON ARTIFICIAL INTELLIGENCE.: American Council on Science & Education, 2017. P. 339–344.
Добавлено: 23 февраля 2018 г.
Инструментальная система на базе языка шаблонов LSPL: новые средства и приложения
Большакова Е. И., Иванов К. М., Тодуа А. Р., В кн.: Ломоносовские чтения: научная конференция, Москва, факультет ВМК МГУ имени М.В. Ломоносова, 17-26 апреля 2017 г.: Тезисы докладов.: М.: МГУ, МАКС Пресс, 2017. С. 123–124.
Рассматриваются новые инструментальные средства, разработанные в рамках системы извлечения информации из русскоязычных текстов по лексико-синтаксическим шаблонам, а также созданные на их базе прикладные системы. ...
Добавлено: 5 сентября 2017 г.
  • О ВЫШКЕ
  • Цифры и факты
  • Руководство и структура
  • Устойчивое развитие в НИУ ВШЭ
  • Преподаватели и сотрудники
  • Корпуса и общежития
  • Закупки
  • Обращения граждан в НИУ ВШЭ
  • Фонд целевого капитала
  • Противодействие коррупции
  • Сведения о доходах, расходах, об имуществе и обязательствах имущественного характера
  • Сведения об образовательной организации
  • Людям с ограниченными возможностями здоровья
  • Единая платежная страница
  • Работа в Вышке
  • ОБРАЗОВАНИЕ
  • Лицей
  • Довузовская подготовка
  • Олимпиады
  • Прием в бакалавриат
  • Вышка+
  • Прием в магистратуру
  • Аспирантура
  • Дополнительное образование
  • Центр развития карьеры
  • Бизнес-инкубатор ВШЭ
  • Образовательные партнерства
  • Обратная связь и взаимодействие с получателями услуг
  • НАУКА
  • Научные подразделения
  • Исследовательские проекты
  • Мониторинги
  • Диссертационные советы
  • Защиты диссертаций
  • Академическое развитие
  • Конкурсы и гранты
  • Внешние научно-информационные ресурсы
  • РЕСУРСЫ
  • Библиотека
  • Издательский дом ВШЭ
  • Книжный магазин «БукВышка»
  • Типография
  • Медиацентр
  • Журналы ВШЭ
  • Публикации
  • http://www.minobrnauki.gov.ru/
    Министерство науки и высшего образования РФ
  • https://edu.gov.ru/
    Министерство просвещения РФ
  • http://www.edu.ru
    Федеральный портал «Российское образование»
  • https://elearning.hse.ru/mooc
    Массовые открытые онлайн-курсы
  • НИУ ВШЭ1993–2026
  • Адреса и контакты
  • Условия использования материалов
  • Политика конфиденциальности
  • Правила применения рекомендательных технологий в НИУ ВШЭ
  • Карта сайта
Редактору