• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • A
  • A
  • A
  • A
  • A
Обычная версия сайта
  • RU
  • EN
  • Национальный исследовательский университет «Высшая школа экономики»
  • Публикации ВШЭ
  • Статьи
  • СЕМАНТИЧЕСКАЯ ОБРАБОТКА НЕСТРУКТУРИРОВАННЫХ ТЕКСТОВЫХ ДАННЫХ НА ОСНОВЕ ЛИНГВИСТИЧЕСКОГО ПРОЦЕССОРА PULLENTI
  • RU
  • EN
Расширенный поиск
Высшая школа экономики
Национальный исследовательский университет
Приоритетные направления
  • бизнес-информатика
  • государственное и муниципальное управление
  • гуманитарные науки
  • инженерные науки
  • компьютерно-математическое
  • математика
  • менеджмент
  • право
  • социология
  • экономика
по году
  • 2027
  • 2026
  • 2025
  • 2024
  • 2023
  • 2022
  • 2021
  • 2020
  • 2019
  • 2018
  • 2017
  • 2016
  • 2015
  • 2014
  • 2013
  • 2012
  • 2011
  • 2010
  • 2009
  • 2008
  • 2007
  • 2006
  • 2005
  • 2004
  • 2003
  • 2002
  • 2001
  • 2000
  • 1999
  • 1998
  • 1997
  • 1996
  • 1995
  • 1994
  • 1993
  • 1992
  • 1991
  • 1990
  • 1989
  • 1988
  • 1987
  • 1986
  • 1985
  • 1984
  • 1983
  • 1982
  • 1981
  • 1980
  • 1979
  • 1978
  • 1977
  • 1976
  • 1975
  • 1974
  • 1973
  • 1972
  • 1971
  • 1970
  • 1969
  • 1968
  • 1967
  • 1966
  • 1965
  • 1964
  • 1963
  • 1958
  • еще
Тематика
Новости
16 июня 2026 г.
Публичность ученого: идеальная мера
Еще недавно публичность для ученого считалась чем-то факультативным – полезным, но необязательным. Сегодня она все чаще встроена в научную работу. Не потому, что «надо быть в медиа», а потому что без внешней проявленности исследования могут просто не найти ни аудитории, ни партнеров, ни продолжения. Об этом в статье для IQ Media размышляет эксперт по научным коммуникациям, доцент факультета географии Высшей школы экономики Надежда Пупышева.
15 июня 2026 г.
Ученые ВШЭ выяснили, кто чаще проверяет информацию в интернете
Исследователи НИУ ВШЭ выяснили, как российские интернет-пользователи проверяют сомнительную информацию и что заставляет их это делать. Оказалось, что более половины, заподозрив обман, пытаются отыскать первоисточник. А определяющими факторами в деле проверки становятся возраст, место жительства, социальное положение, навыки работы с информацией и использование ИИ. Результаты опубликованы в журнале «Мониторинг общественного мнения: экономические и социальные перемены».
15 июня 2026 г.
<a>Институт робототехнических систем ВШЭ запустил научно-технический семинар
Институт робототехнических систем (ИРС) ВШЭ запустил новый ежемесячный формат — Научно-технический семинар. Он объединяет сотрудников института, приглашенных экспертов, студентов, исследователей и представителей других подразделений НИУ ВШЭ для обсуждения актуальных задач мехатроники, робототехники и киберфизических систем.

 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!

Публикации
  • Книги
  • Статьи
  • Главы в книгах
  • Препринты
  • Верификация публикаций
  • Расширенный поиск
  • Правила использования материалов
  • Наука в ВШЭ

?

СЕМАНТИЧЕСКАЯ ОБРАБОТКА НЕСТРУКТУРИРОВАННЫХ ТЕКСТОВЫХ ДАННЫХ НА ОСНОВЕ ЛИНГВИСТИЧЕСКОГО ПРОЦЕССОРА PULLENTI

Информатика и ее применения. 2018. Т. 12. № 3. С. 91–98.
Козеренко Е. Б., Кузнецов К. И., Романов Д. А.

Представлена методика создания систем извлечения знаний, основанная на подходе, главным инструментом которого является программный пакет PullEnti, включающий алгоритмы морфологического и семантико-синтаксического анализа для выделения сущностей определенных типов из текстов естественного языка (персоны, организации, локации и другие целевые семантические объекты). В системе PullEnti используются динамически подключаемые компоненты (плагины), что позволяет без перекомпилирования активировать различные функциональные возможности. Именно таким образом запускается блок семантического анализа. В процессе анализа выделяются семантические единицы (токены), которые представляют собой типизированные фразы: текстовые, числовые и др. Приводятся примеры реализованных проектов для различных предметных областей.

Научное направление: Компьютерные науки
Приоритетные направления: бизнес-информатика
Язык: русский
DOI
Текст на другом сайте
Ключевые слова: семантический поисксемантическое моделированиеsemantic modelingsemantic searchинтеллектуальные технологииKnowledge Extractionименованные сущностиintelligent information systemsизвлечение знаний из текстовnamed entity recognition
Похожие публикации
Proceedings of the 19th Conference of the European Chapter of the Association for Computational Linguistics (Volume 1: Long Papers)
Association for Computational Linguistics, 2026.
Добавлено: 14 июня 2026 г.
Proceedings of the 6th Workshop on Computational Approaches to Discourse, Context and Document-Level Inferences (CODI 2025)
Strube M., Braud C., Hardmeier C. и др., Suzhou: Association for Computational Linguistics, 2025.
Добавлено: 11 июня 2026 г.
TreeDQN: Sample-efficient off-policy reinforcement learning for combinatorial optimization
Sorokin D., Kostin A., Савченко Л. В. и др., Knowledge-Based Systems 2026 Vol. 348 Article 116258
Добавлено: 10 июня 2026 г.
Microbial diversity and production of milk spirit using traditional Buryat fermentation and distillation technologies
Namsaraev Z., Nanzatov B., Козлова А. Д. и др., Scientific Reports 2026 Vol. 16 No. 1 Article 17769
Дистиллированные кисломолочные напитки встречаются в пищевой промышленности редко, несмотря на повсеместное распространение растительных спиртных напитков. В настоящее время производство крепких дистиллированных алкогольных напитков из кисломолочных продуктов с использованием традиционных технологий известно лишь среди монголоязычных народов и их сибирских соседей. Данное исследование представляет собой первый междисциплинарный анализ дарасуна, традиционного бурятского спиртного напитка, изготавливаемого из кисломолочного напитка ...
Добавлено: 10 июня 2026 г.
Artificial intelligence and digital twins for failure prediction in data center cooling systems: a comprehensive literature review (2018–2026)
Butorova A., Bobakov V., Sergeev A. и др., European Physical Journal: Special Topics 2026 P. 1–19
Добавлено: 10 июня 2026 г.
Innovations in Information and Decision Sciences. Proceedings of the 13th International Conference on Frontiers in Intelligent Computing: Theory and Applications (FICTA 2025), Volume 4
Springer, 2026.
Добавлено: 8 июня 2026 г.
Proceedings of the 43rd International Conference on Machine Learning (ICML 2026)
Seul: PMLR, 2026.
Добавлено: 4 июня 2026 г.
OpenAtom Foundation. Консорциум, развивающий Open Source в Китае.
Силаков Д. В., Системный администратор 2026 № 3 С. 28–33
В статье про платформы для разработки открытого ПО в Китае мы рассказали про GitCode – молодой проект, позиционируемый как площадка для разработчиков со всего мира. Сейчас на GitCode размещаются проекты, созданные в КНР, но некоторые из них уже известны и на международной арене. Помочь открытым проектам в становлении, развитии и расширению аудитории призван фонд OpenAtom ...
Добавлено: 2 июня 2026 г.
Анализ культурных референций в творчестве А. Вознесенского: цифровое исследование имен персоналий
Тюрякова-Матвеева Д. В., Цифровые гуманитарные исследования 2026 № 1 С. 4–26
Статья исследует культурные референции в творчестве Андрея Вознесенского путем анализа упоминаемых им персоналий. Обработано 1678 произведений, включая поэзию, прозу и ранние неопубликованные стихотворения. Методы NER, основанные на инструментах Natasha, spaCy и LLM Grok, позволили изучить частоту упоминания известных лиц и их связь с жанром произведения. Определены ключевые авторы Вознесенского (Пастернак, Пушкин, Маяковский), выявлены особенности жанра ...
Добавлено: 31 мая 2026 г.
The recognition-by-components method
Slivnitsin P., Мыльников Л. А., Engineering Applications of Artificial Intelligence 2026 Vol. 179 Article 115185
Добавлено: 29 мая 2026 г.
Brain-Computer Interfaces for Gait Rehabilitation After Stroke A Scoping Review
Мокиенко О. А., Zisman M. A., Бобров П. Д. и др., American Journal of Physical Medicine and Rehabilitation 2026 Vol. 105 No. 6 P. 555–563
Добавлено: 28 мая 2026 г.
Generalizing the Brady-Yong Algorithm: Efficient Fast Hough Transform for Arbitrary Image Sizes
Kazimirov D., Rybakova E., Vitalii V. Gulevskii и др., IEEE Access 2025 Vol. 13 P. 20101–20132
Добавлено: 28 мая 2026 г.
INTELLECTUAL MANAGEMENT OF THE BUDGET PROCESS IN MUNICIPALITIES
Барчуков В. К., Lecture Notes in Networks and Systems 2021 Vol. 160 P. 713–718
Добавлено: 21 января 2026 г.
Применение интеллектуальных информационных систем в дополнительном образовании учителей математики
Ли О. В., Педагогическая информатика 2025 № 1 С. 141–148
В статье рассматриваются цели и задачи, рекомендации по применению интеллектуальных информационных систем в подготовке учителей математики на базе дополнительного образования. Приводится сравнительный анализ информационных систем и интеллектуальных информационных систем. Рассматриваются проблемы в применении интеллектуальных информационных систем в образовании. ...
Добавлено: 15 января 2026 г.
Оценка моделей LLM по степени готовности решать задачи управления в области ESG
Сторчевой М. А., Мыльников Л. А., Чернышев В. В. и др., / SSRN. Серия "Working Papers". 2025.
Внимание к охране природы принимает все большую значимость для бизнеса с одной стороны в связи с ужесточением в природоохранном законодательстве, а с другой в связи с использованием ESG рейтингов при принятии решений о коммерческой деятельности компаний. Составление рейтинга LLM систем, способных оказывать консультационные услуги в области природоохраны и ESG, позволяет осуществить выбор такой системы для ...
Добавлено: 18 сентября 2025 г.
Causal Estimands for Policy Evaluation and Beyond
Соколов Б. О., / Series OSF "SocArXiv". 2025.
This paper reviews various estimands used in modern scientific and applied research to operationalize causal inquiries within the Rubin Causal Model framework. I first introduce the most widely utilized average treatment effects, such as ATE, ATT, and ATC. I then describe their popular extensions, including those targeting local and conditional treatment effects; causal interactions and mediation; effects ...
Добавлено: 6 мая 2025 г.
Cultural characteristics of Digital Ecosystem Product Teams and Operational Efficiency
Ованесова Ю. С., Мошиашвили М. М., Типсина Н. О., / Series "Working Papers". 2021.
Цель данной статьи - анализ и оценка культурных характеристик лидеров продуктовых команд цифровой экосистемы с точки зрения операционной эффективности. Используя модели бинарного выбора (основные выводы были сделаны на основе логит-регрессий), была обнаружена отрицательная взаимосвязь между вероятностью достижения бизнес-целей командой и отношением лидера к дистанции власти и неопределенности. Дистанция власти и неприятие неопределенности также влияют на ...
Добавлено: 17 февраля 2025 г.
Versions of least-squares k-means algorithm for interval data
Миркин Б. Г., Паринов А. А., Галынчик М. С. и др., / Series WP7 "Математические методы анализа решений в экономике, бизнесе и политике". 2024.
Добавлено: 26 ноября 2024 г.
Use of Text Skeleton Structures for the Development of Semantic Search Methods
A. V. Mylnikova, V. A. Trusov, L. A. Mylnikov, Automatic Documentation and Mathematical Linguistics 2023 Vol. 57 No. 5 P. 301–307
This paper considers the problem of the generation of descriptors to reduce data volumes, text data resources, and search times through the use of the new factors of authorship, region, emotive meaning, and popularity, as well as a text category without special marks that can be used to generate descriptors. This approach allows the use ...
Добавлено: 29 февраля 2024 г.
Проект Chekhov Digital: задачи и проблемы реализации семантической разметки текстов (на примере рассказа А. П. Чехова «Смерть чиновника»)
Северина Е. М., Ларионова М. Ч., Litera 2023 № 10 С. 211–222
В статье рассматривается модель подготовки машиночитаемой (семантической) разметки текстов для проекта Chekhov Digital на примере филологической интерпретации отдельных значимых элементов рассказа А. П. Чехова «Смерть чиновника» и представления этих сведений в явном виде с опорой на стандарты цифровой публикации Text Encoding Initiative (TEI/XML). Выявлены значимые сущности для разметки корпуса текстов писателя, однако вопрос их репрезентации ...
Добавлено: 12 января 2024 г.
Исследовательский потенциал корпуса советских песен: эмоциональная тональность и география песенных текстов через призму компьютерных технологий
Колмогорова А. В., Зарембо В. С., Ткачева Е. С. и др., В кн.: Лингвистическая семантика в пространственном измерении: Словарь. Дискурс. Корпус.: Екатеринбург: Кабинетный ученый, 2024. Гл. 10 С. 423–445.
Цель данного исследования – описать характеристики текста популярной советской песни как лингвоидеологического феномена. В качестве материала используется корпус советской песни, собранный исследовательской группой. В фокусе данной публикации – две характеристики: изменения эмоциональной тональности популярных песен, выпускавшихся на граммпластинках фирмой «Мелодия» в разные периоды советской эпохи, и города, упоминавшиеся в песнях с 1950 по 2000 гг. ...
Добавлено: 10 декабря 2023 г.
Проект Chekhov Digital: разработка цифрового индекса для семантического поиска
Северина Е. М., В кн.: Kompyuter lingvistikasi: muammo va yechimlar (Компьютерная лингвистика: проблемы и решения, Computational linguistics and solutions).: Tashkent: [б.и.], 2021. С. 82–88.
Рассмотрена специфика разработки цифрового указателя (индекса) имен и названий реальных людей и объектов, упоминаемых в текстах произведений и писем А. П. Чехова и представленных в указателях академического издания. Разработка такого индекса позволяет организовать семантический поиск по текстам произведений писателя, редакционно-критическому аппарату цифрового издания Chekhov Digital. ...
Добавлено: 8 ноября 2023 г.
Использование скелетных структур текстов для развития методов семантического поиска
Мыльникова А. В., Трусов В. А., Мыльников Л. А., Научно-техническая информация. Серия 2: Информационные процессы и системы 2023 № 10 С. 16–23
Рассматривается проблема формирования дескрипторов для сокращения объе ма выдачи данных, сокращения времени поиска в текстовых источниках информа ции с помощью таких новых факторов, как авторство, регион, эмоциональный окрас, популярность, категория текста без соответствующих меток, которые могут формировать дескрипторы. Предлагаемый подход позволяет использовать уникальные лексико-грамматические дистрибутивные закономерности, имеющиеся в текстах. Результаты исследования могут быть применены для определения ав торства и типа текста. ...
Добавлено: 31 октября 2023 г.
Semantic Recommendation System for Bilingual Corpus of Academic Papers
Сафарян А. К., Petr Filchenkov, Yan W. и др., , in: Recent Trends in Analysis of Images, Social Networks and Texts. 9th International Conference, AIST 2020, Skolkovo, Moscow, Russia, October 15–16, 2020 Revised Supplementary ProceedingsVol. 12602.: Springer, 2021. Ch. 3 P. 22–36.
Добавлено: 18 сентября 2023 г.
  • О ВЫШКЕ
  • Цифры и факты
  • Руководство и структура
  • Устойчивое развитие в НИУ ВШЭ
  • Преподаватели и сотрудники
  • Корпуса и общежития
  • Закупки
  • Обращения граждан в НИУ ВШЭ
  • Фонд целевого капитала
  • Противодействие коррупции
  • Сведения о доходах, расходах, об имуществе и обязательствах имущественного характера
  • Сведения об образовательной организации
  • Людям с ограниченными возможностями здоровья
  • Единая платежная страница
  • Работа в Вышке
  • ОБРАЗОВАНИЕ
  • Лицей
  • Довузовская подготовка
  • Олимпиады
  • Прием в бакалавриат
  • Вышка+
  • Прием в магистратуру
  • Аспирантура
  • Дополнительное образование
  • Центр развития карьеры
  • Бизнес-инкубатор ВШЭ
  • Образовательные партнерства
  • Обратная связь и взаимодействие с получателями услуг
  • НАУКА
  • Научные подразделения
  • Исследовательские проекты
  • Мониторинги
  • Диссертационные советы
  • Защиты диссертаций
  • Академическое развитие
  • Конкурсы и гранты
  • Внешние научно-информационные ресурсы
  • РЕСУРСЫ
  • Библиотека
  • Издательский дом ВШЭ
  • Книжный магазин «БукВышка»
  • Типография
  • Медиацентр
  • Журналы ВШЭ
  • Публикации
  • http://www.minobrnauki.gov.ru/
    Министерство науки и высшего образования РФ
  • https://edu.gov.ru/
    Министерство просвещения РФ
  • http://www.edu.ru
    Федеральный портал «Российское образование»
  • https://elearning.hse.ru/mooc
    Массовые открытые онлайн-курсы
  • НИУ ВШЭ1993–2026
  • Адреса и контакты
  • Условия использования материалов
  • Политика конфиденциальности
  • Правила применения рекомендательных технологий в НИУ ВШЭ
  • Карта сайта
Редактору