• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • A
  • A
  • A
  • A
  • A
Обычная версия сайта
  • RU
  • EN
  • Национальный исследовательский университет «Высшая школа экономики»
  • Публикации ВШЭ
  • Статьи
  • Методы и средства извлечения терминов из текстов для терминологических задач
  • RU
  • EN
Расширенный поиск
Высшая школа экономики
Национальный исследовательский университет
Приоритетные направления
  • бизнес-информатика
  • государственное и муниципальное управление
  • гуманитарные науки
  • инженерные науки
  • компьютерно-математическое
  • математика
  • менеджмент
  • право
  • социология
  • экономика
по году
  • 2027
  • 2026
  • 2025
  • 2024
  • 2023
  • 2022
  • 2021
  • 2020
  • 2019
  • 2018
  • 2017
  • 2016
  • 2015
  • 2014
  • 2013
  • 2012
  • 2011
  • 2010
  • 2009
  • 2008
  • 2007
  • 2006
  • 2005
  • 2004
  • 2003
  • 2002
  • 2001
  • 2000
  • 1999
  • 1998
  • 1997
  • 1996
  • 1995
  • 1994
  • 1993
  • 1992
  • 1991
  • 1990
  • 1989
  • 1988
  • 1987
  • 1986
  • 1985
  • 1984
  • 1983
  • 1982
  • 1981
  • 1980
  • 1979
  • 1978
  • 1977
  • 1976
  • 1975
  • 1974
  • 1973
  • 1972
  • 1971
  • 1970
  • 1969
  • 1968
  • 1967
  • 1966
  • 1965
  • 1964
  • 1963
  • 1958
  • еще
Тематика
Новости
11 июня 2026 г.
Время жизни популяций определяется законами математики
Исследователи НИУ ВШЭ и МГУ доказали универсальный закон, описывающий время исчезновения популяций в случайной среде. Анализ эволюции ветвящихся процессов — сложных вероятностных систем — показал, что вне зависимости от изначального числа особей процесс вымирания подчиняется строгим математическим закономерностям. Результаты опубликованы в Journal of Applied Probability.
8 июня 2026 г.
«За 12 лет на нашем счету почти 1000 операций с пробуждением»
В НИУ ВШЭ прошла XIII Летняя нейролингвистическая школа, организованная Центром языка и мозга при поддержке факультета гуманитарных наук НИУ ВШЭ. В центре внимания слушателей была совместная работа нейролингвистов, нейрохирургов и нейрофизиологов в операционной, стандартизация лингвистических парадигм и практические подходы к сохранению речевой функции пациентов.
5 июня 2026 г.
Аспирантка НИУ ВШЭ открыла «невидимую» планировку античного Париона
Исследовательница из НИУ ВШЭ Идиль Малгиль изучила с помощью дрона с лазерным сканером сверхвысокого разрешения древнеримский город Парион, расположенный на территории современной Турции. Благодаря высокой плотности сканирования удалось зафиксировать крошечные неровности рельефа, скрытые под землей и растительностью. Обнаружены следы целых кварталов, террасных систем и стен, которые невозможно было различить ни при обычных раскопках, ни с помощью аэрофотосъемки. Результаты исследованияо публикованы в международном научном журнале Ancient Civilizations from Scythia to Siberia.

 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!

Публикации
  • Книги
  • Статьи
  • Главы в книгах
  • Препринты
  • Верификация публикаций
  • Расширенный поиск
  • Правила использования материалов
  • Наука в ВШЭ

?

Методы и средства извлечения терминов из текстов для терминологических задач

Программные продукты и системы. 2025. Т. 38. № 1. С. 5–16.
Большакова Е. И., Семак В. В.

Рассматривается современное состояние в области автоматического извлечения терминов из специализированных текстов на естественном языке, включая научно-технические документы. К числу актуальных практических приложений методов и средств извлечения терминов из текстов относятся создание терминологических словарей, тезаурусов и глоссариев предметных областей,  а также выявление ключевых слов и построение предметных указателей для узкоспециализированных документов.

Обзорно излагаются применяемые подходы к автоматическому распознаванию и извлечению терминологических слов и словосочетаний, которые охватывают традиционные статистические методы, а также методы на основе машинного обучения, включая обучение по признакам терминов и обучение с применением современных нейросетевых языковых моделей. Проводится сравнение подходов, в том числе оценки качества распознавания и извлечения терминов, указываются наиболее известные программные средства для автоматизации извлечения терминов в рамках статистического подхода и обучения по признакам.

Описываются исследования, проведенные авторами для распознавания терминов на базе нейросетевых языковых моделей, применительно к обработке научных текстов по математике и программированию на русском языке. Кратко характеризуется набор данных с терминологической разметкой, созданный для обучения программных моделей распознавания терминов и охватывающий данные семи близких предметных областей. Разработка программных моделей велась на основе предобученной нейросетевой модели BERT,  c ее дообучением двумя способами: как бинарного классификатора терминов-кандидатов (предварительно извлеченных из текстов) и как классификатора для последовательной разметки терминологических слов в обрабатываемых текстах. Для разработанных моделей экспериментально определены оценки качества распознавания терминов, проведено сравнение со статистическим методом. Лучшее качество демонстрируют модели бинарной классификации, существенно превосходя остальные рассмотренные подходы. Проведенные эксперименты показывают также применимость обученных моделей для текстов близкой научной области

Язык: русский
DOI
Ключевые слова: автоматическая обработка естественного языкаautomatic term extractionававтоматическое извлечение терминовNatural Language Processingmachine learning for term recognitionмашинное обучение для распознавания терминов
Похожие публикации
MMTEB: Massive Multilingual Text Embedding Benchmark
Kenneth E., Chung I., Kerboua I. и др., , in: Proceedings of the 13th International Conference on Learning Representations (ICLR 2025).: ICLR, 2025. P. 102004–102060.
Добавлено: 11 июня 2026 г.
The Russian-Focused Embedders' Exploration: ruMTEB Benchmark and Russian Embedding Model Design
Снегирев А., Тихонова М. И., Maksimova A. и др., , in: Proceedings of the 2025 Conference of the Nations of the Americas Chapter of the Association for Computational Linguistics: Human Language TechnologiesVol. 1: Volume 1: Long Papers.: Association for Computational Linguistics, 2025. P. 236–254.
Добавлено: 11 июня 2026 г.
Long Context Benchmark for the Russian Language
Churin I., Apishev M., Тихонова М. И. и др., , in: Proceedings of the 6th Workshop on Computational Approaches to Discourse, Context and Document-Level Inferences (CODI 2025).: Suzhou: Association for Computational Linguistics, 2025. P. 1–13.
Добавлено: 11 июня 2026 г.
Proceedings of the 6th Workshop on Computational Approaches to Discourse, Context and Document-Level Inferences (CODI 2025)
Strube M., Braud C., Hardmeier C. и др., Suzhou: Association for Computational Linguistics, 2025.
Добавлено: 11 июня 2026 г.
Proceedings of the 19th Conference of the European Chapter of the Association for Computational Linguistics (Volume 3: System Demonstrations)
Rabat: Association for Computational Linguistics, 2026.
Добавлено: 19 мая 2026 г.
FinTech and the green transition: Exploring pathways to ignite innovation for carbon neutrality in global supply chains
Yalcin H., Demirhan D., Aracioglu B. и др., Technology in Society 2026 Vol. 84 Article 103094
Добавлено: 11 марта 2026 г.
Дискриминативная лемматизация сокращений в эпоху LLM
Глазкова А. В., Смаль И. В., Ляшевская О. Н. и др., Доклады Российской академии наук. Математика, информатика, процессы управления (ранее - Доклады Академии Наук. Математика) 2025 Т. 527 С. 146–155
В работе представлено исследование эффективности дискриминативных методов лемматизации сокращений в русскоязычных текстах. В отличие от генеративных подходов, дискриминативные модели осуществляют выбор оптимальной леммы из фиксированного набора вариантов, что исключает риск генерации грамматически некорректных словоформ. Впервые для русского языка проводится комплексный анализ четырех контекстно-ориентированных подходов: (1) ранжирования на основе маскированного языкового моделирования, (2) бинарной классификации, (3) ...
Добавлено: 10 марта 2026 г.
30th International Conference on Applications of Natural Language to Information Systems, NLDB 2025, Kanazawa, Japan, July 4–6, 2025, Proceedings, Part I. Natural Language Processing and Information Systems. (LNCS, volume 15836)
Springer, 2025.
Добавлено: 3 февраля 2026 г.
Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing (EMNLP)
Association for Computational Linguistics, 2025.
Добавлено: 16 ноября 2025 г.
Автоматическая саммаризация родительских чатов в WhatsApp
Дмитриева К. А., Жолус М. Р., Вестник Новосибирского государственного университета. Серия: Лингвистика и межкультурная коммуникация 2025 Т. 23 № 1 С. 80–92
Автоматическая саммаризация текста – одна из ключевых задач NLP, предполагающая создание краткой версии исходного текста. В современном мире, где объемы потребляемой человеком информации неустанно растут, задаче саммаризации уделяется все больше внимания. Автореферирование предполагает два основных подхода: экстрактивный и абстрактивный. Последний заключается в автоматическом создании саммари текста, в котором могут содержаться слова и предложения, не встречающиеся ...
Добавлено: 8 июля 2025 г.
Analysis of Images, Social Networks and Texts, 12th International Conference, AIST 2024, Bishkek, Kyrgyzstan, October 17–19, 2024, Revised Selected Papers
Springer, 2024.
This book constitutes the refereed proceedings of the 12th International Conference on Analysis of Images, Social Networks and Texts, AIST 2024, held in Bishkek, Kyrgyzstan, during October 17–19, 2024. The 16 full papers included in this book were carefully reviewed and selected from 70 submissions. They were organized in topical sections as follows: Natural Language Processing; Computer Vision; Data Analysis and Machine Learning; ...
Добавлено: 29 мая 2025 г.
Knowledge Discovery, Knowledge Engineering and Knowledge Management: 15th International Joint Conference, IC3K 2023, Rome, Italy, November 13-15, 2023, Revised Selected Papers
Rome: Springer, 2025.
Добавлено: 2 мая 2025 г.
An experimental rule-based parser for Russian employing the NLP resources of the ETAP system
Inshakova E.S., Sizov V. G., , in: Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialogue 2020"Issue 19 (26).: ., 2020.
Добавлено: 10 апреля 2025 г.
Automation of Forensic Authorship Attribution: Problems and Prospects
Романова Т. В., Хоменко А. Ю., Legal Issues in the Digital Age 2022 Vol. 3 No. 2 P. 90–115
The article deals with validation of an integrative attribution algorithm based on the analysis of the author’s idiostyle using methods of interpretative linguistics with ob jectification of the available data with the help of mathematical statistics. The algo rithm addresses the identification problem of the attribution. The choice of parameters describing the individual style of ...
Добавлено: 12 марта 2025 г.
Proceedings of the 28th Conference on Computational Natural Language Learning
Association for Computational Linguistics, 2024.
Добавлено: 11 марта 2025 г.
Big Data Analytics Approach with Multiple Text Types: The Case of the Computer Gaming
Aleksandr Belov, Zakharov F., Litvinenko E. и др., , in: International IoT, Electronics and Mechatronics Conference, Volume 2. Proceedings of IEMTRONICS 2024. LNEE, volume 1228Vol. 1228.: Springer Publishing Company, 2025. P. 275–287.
Добавлено: 26 января 2025 г.
Automatic Morpheme Segmentation for Russian: Can an Algorithm Replace Experts?
Morozov D., Garipov T., Ляшевская О. Н. и др., Journal of Language and Education 2024 Vol. 10 No. 4 P. 71–84
Introduction: Numerous algorithms have been proposed for the task of automatic morpheme segmentation of Russian words. Due to the differences in task formulation and datasets utilized, comparing the quality of these algorithms is challenging. It is unclear whether the errors in the models are due to the ineffectiveness of algorithms themselves or to errors and inconsistencies ...
Добавлено: 7 января 2025 г.
Threatening Expression and Target Identification in Under-Resource Languages Using NLP Techniques
Малик М. Ш., Lecture Notes in Computer Science 2024 Vol. 14486 P. 3–17
Добавлено: 12 декабря 2024 г.
Document Classification via Stable Graph Patterns and Conceptual AMR Graphs
Паракал Э. Д., Дудырев Е. О., Sergei O. Kuznetsov и др., Lecture Notes in Computer Science 2024 Vol. 14914 P. 286–301
Добавлено: 10 сентября 2024 г.
Think about what you’ve learned: анализ тональности для моделирования пользовательского опыта в сфере онлайн-образования
Кирина М. А., Человек: образ и сущность. Гуманитарные аспекты 2024 № 2(58) С. 176–204
В статье рассматриваются способы автоматического анализа мнений для оценки пользовательского опыта применительно к отзывам на проекты в рамках онлайн-курсов по программированию на Python, Java и Kotlin, представленных на англоязычной образовательной платформе Hyperskill. В исследовании описывается подход с опорой на методы анализа тональности и извлечения ключевых слов для характеристики отношения пользователей к изучаемым темам, образовательному процессу ...
Добавлено: 9 декабря 2023 г.
Disambiguation in context in the Russian National Corpus: 20 yeas later
Ляшевская О. Н., Афанасьев И. А., Stefan Rebrikov и др., , in: Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной международной конференции «Диалог». Вып. 22.Вып. 22.: [б.и.], 2023. P. 307–318.
Добавлено: 15 сентября 2023 г.
Identifying and Visualizing Trends in Science, Technology, and Innovation Using SciBERT
Лобанова П. А., Bakhtin P., Sergienko Y., IEEE Transactions on Engineering Management 2024 No. 71 P. 11898–11906
Добавлено: 8 сентября 2023 г.
  • О ВЫШКЕ
  • Цифры и факты
  • Руководство и структура
  • Устойчивое развитие в НИУ ВШЭ
  • Преподаватели и сотрудники
  • Корпуса и общежития
  • Закупки
  • Обращения граждан в НИУ ВШЭ
  • Фонд целевого капитала
  • Противодействие коррупции
  • Сведения о доходах, расходах, об имуществе и обязательствах имущественного характера
  • Сведения об образовательной организации
  • Людям с ограниченными возможностями здоровья
  • Единая платежная страница
  • Работа в Вышке
  • ОБРАЗОВАНИЕ
  • Лицей
  • Довузовская подготовка
  • Олимпиады
  • Прием в бакалавриат
  • Вышка+
  • Прием в магистратуру
  • Аспирантура
  • Дополнительное образование
  • Центр развития карьеры
  • Бизнес-инкубатор ВШЭ
  • Образовательные партнерства
  • Обратная связь и взаимодействие с получателями услуг
  • НАУКА
  • Научные подразделения
  • Исследовательские проекты
  • Мониторинги
  • Диссертационные советы
  • Защиты диссертаций
  • Академическое развитие
  • Конкурсы и гранты
  • Внешние научно-информационные ресурсы
  • РЕСУРСЫ
  • Библиотека
  • Издательский дом ВШЭ
  • Книжный магазин «БукВышка»
  • Типография
  • Медиацентр
  • Журналы ВШЭ
  • Публикации
  • http://www.minobrnauki.gov.ru/
    Министерство науки и высшего образования РФ
  • https://edu.gov.ru/
    Министерство просвещения РФ
  • http://www.edu.ru
    Федеральный портал «Российское образование»
  • https://elearning.hse.ru/mooc
    Массовые открытые онлайн-курсы
  • НИУ ВШЭ1993–2026
  • Адреса и контакты
  • Условия использования материалов
  • Политика конфиденциальности
  • Правила применения рекомендательных технологий в НИУ ВШЭ
  • Карта сайта
Редактору