Методы и средства извлечения терминов из текстов для терминологических задач

?

Методы и средства извлечения терминов из текстов для терминологических задач

Программные продукты и системы. 2025. Т. 38. № 1. С. 5–16.

Рассматривается современное состояние в области автоматического извлечения терминов из специализированных текстов на естественном языке, включая научно-технические документы. К числу актуальных практических приложений методов и средств извлечения терминов из текстов относятся создание терминологических словарей, тезаурусов и глоссариев предметных областей, а также выявление ключевых слов и построение предметных указателей для узкоспециализированных документов.

Обзорно излагаются применяемые подходы к автоматическому распознаванию и извлечению терминологических слов и словосочетаний, которые охватывают традиционные статистические методы, а также методы на основе машинного обучения, включая обучение по признакам терминов и обучение с применением современных нейросетевых языковых моделей. Проводится сравнение подходов, в том числе оценки качества распознавания и извлечения терминов, указываются наиболее известные программные средства для автоматизации извлечения терминов в рамках статистического подхода и обучения по признакам.

Описываются исследования, проведенные авторами для распознавания терминов на базе нейросетевых языковых моделей, применительно к обработке научных текстов по математике и программированию на русском языке. Кратко характеризуется набор данных с терминологической разметкой, созданный для обучения программных моделей распознавания терминов и охватывающий данные семи близких предметных областей. Разработка программных моделей велась на основе предобученной нейросетевой модели BERT, c ее дообучением двумя способами: как бинарного классификатора терминов-кандидатов (предварительно извлеченных из текстов) и как классификатора для последовательной разметки терминологических слов в обрабатываемых текстах. Для разработанных моделей экспериментально определены оценки качества распознавания терминов, проведено сравнение со статистическим методом. Лучшее качество демонстрируют модели бинарной классификации, существенно превосходя остальные рассмотренные подходы. Проведенные эксперименты показывают также применимость обученных моделей для текстов близкой научной области

Язык: русский

DOI

RussianSuperGLUE: A Russian Language Understanding Evaluation Benchmark

Shavrina T., Феногенова А. С., Emelyanov A. и др., , in: Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP).: Association for Computational Linguistics, 2020. P. 4717–4726.

Добавлено: 14 июня 2026 г.

A family of pretrained transformer language models for Russian

Zmitrovich D., Abramov A., Kalmykov A. и др., , in: Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024).: ELRA and ICCL, 2024.

Добавлено: 14 июня 2026 г.

RuCLEVR: A Russian Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning

Biryukova K., Chelnokova D., Erkenova J. и др., , in: Analysis of Images, Social Networks and Texts. AIST 2024Issue 2364.: Cham: Springer, 2024. P. 109–121.

Добавлено: 14 июня 2026 г.

Multimodal Evaluation of Russian-language Architectures.

Chervyakov A., Isaeva U., Emelyanov A. и др., , in: Proceedings of the 19th Conference of the European Chapter of the Association for Computational Linguistics (Volume 1: Long Papers)Vol. 1.: Association for Computational Linguistics, 2026. P. 2114–2161.

Добавлено: 14 июня 2026 г.

Proceedings of the 19th Conference of the European Chapter of the Association for Computational Linguistics (Volume 1: Long Papers)

Association for Computational Linguistics, 2026.

Добавлено: 14 июня 2026 г.

DRAGOn: Designing RAG On Periodically Updated Corpus.

Chernogorskii F., Averkiev S., Kudraleeva L. и др., , in: Proceedings of the 19th Conference of the European Chapter of the Association for Computational Linguistics (Volume 4: Student Research Workshop)Vol. 4.: Association for Computational Linguistics, 2026. P. 622–638.

Добавлено: 13 июня 2026 г.

MMTEB: Massive Multilingual Text Embedding Benchmark

Kenneth E., Chung I., Kerboua I. и др., , in: Proceedings of the 13th International Conference on Learning Representations (ICLR 2025).: ICLR, 2025. P. 102004–102060.

Добавлено: 11 июня 2026 г.

The Russian-Focused Embedders' Exploration: ruMTEB Benchmark and Russian Embedding Model Design

Снегирев А., Тихонова М. И., Maksimova A. и др., , in: Proceedings of the 2025 Conference of the Nations of the Americas Chapter of the Association for Computational Linguistics: Human Language TechnologiesVol. 1: Volume 1: Long Papers.: Association for Computational Linguistics, 2025. P. 236–254.

Добавлено: 11 июня 2026 г.

Long Context Benchmark for the Russian Language

Churin I., Apishev M., Тихонова М. И. и др., , in: Proceedings of the 6th Workshop on Computational Approaches to Discourse, Context and Document-Level Inferences (CODI 2025).: Suzhou: Association for Computational Linguistics, 2025. P. 1–13.

Добавлено: 11 июня 2026 г.

Proceedings of the 6th Workshop on Computational Approaches to Discourse, Context and Document-Level Inferences (CODI 2025)

Strube M., Braud C., Hardmeier C. и др., Suzhou: Association for Computational Linguistics, 2025.

Добавлено: 11 июня 2026 г.

Proceedings of the 19th Conference of the European Chapter of the Association for Computational Linguistics (Volume 3: System Demonstrations)

Rabat: Association for Computational Linguistics, 2026.

Добавлено: 19 мая 2026 г.

FinTech and the green transition: Exploring pathways to ignite innovation for carbon neutrality in global supply chains

Yalcin H., Demirhan D., Aracioglu B. и др., Technology in Society 2026 Vol. 84 Article 103094

Добавлено: 11 марта 2026 г.

Дискриминативная лемматизация сокращений в эпоху LLM

Глазкова А. В., Смаль И. В., Ляшевская О. Н. и др., Доклады Российской академии наук. Математика, информатика, процессы управления (ранее - Доклады Академии Наук. Математика) 2025 Т. 527 С. 146–155

В работе представлено исследование эффективности дискриминативных методов лемматизации сокращений в русскоязычных текстах. В отличие от генеративных подходов, дискриминативные модели осуществляют выбор оптимальной леммы из фиксированного набора вариантов, что исключает риск генерации грамматически некорректных словоформ. Впервые для русского языка проводится комплексный анализ четырех контекстно-ориентированных подходов: (1) ранжирования на основе маскированного языкового моделирования, (2) бинарной классификации, (3) ...

Добавлено: 10 марта 2026 г.

30th International Conference on Applications of Natural Language to Information Systems, NLDB 2025, Kanazawa, Japan, July 4–6, 2025, Proceedings, Part I. Natural Language Processing and Information Systems. (LNCS, volume 15836)

Springer, 2025.

Добавлено: 3 февраля 2026 г.

Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing (EMNLP)

Association for Computational Linguistics, 2025.

Добавлено: 16 ноября 2025 г.

Автоматическая саммаризация родительских чатов в WhatsApp

Дмитриева К. А., Жолус М. Р., Вестник Новосибирского государственного университета. Серия: Лингвистика и межкультурная коммуникация 2025 Т. 23 № 1 С. 80–92

Автоматическая саммаризация текста – одна из ключевых задач NLP, предполагающая создание краткой версии исходного текста. В современном мире, где объемы потребляемой человеком информации неустанно растут, задаче саммаризации уделяется все больше внимания. Автореферирование предполагает два основных подхода: экстрактивный и абстрактивный. Последний заключается в автоматическом создании саммари текста, в котором могут содержаться слова и предложения, не встречающиеся ...

Добавлено: 8 июля 2025 г.

Analysis of Images, Social Networks and Texts, 12th International Conference, AIST 2024, Bishkek, Kyrgyzstan, October 17–19, 2024, Revised Selected Papers

Springer, 2024.

This book constitutes the refereed proceedings of the 12th International Conference on Analysis of Images, Social Networks and Texts, AIST 2024, held in Bishkek, Kyrgyzstan, during October 17–19, 2024. The 16 full papers included in this book were carefully reviewed and selected from 70 submissions. They were organized in topical sections as follows: Natural Language Processing; Computer Vision; Data Analysis and Machine Learning; ...

Добавлено: 29 мая 2025 г.

Knowledge Discovery, Knowledge Engineering and Knowledge Management: 15th International Joint Conference, IC3K 2023, Rome, Italy, November 13-15, 2023, Revised Selected Papers

Rome: Springer, 2025.

Добавлено: 2 мая 2025 г.

An experimental rule-based parser for Russian employing the NLP resources of the ETAP system

Inshakova E.S., Sizov V. G., , in: Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialogue 2020"Issue 19 (26).: ., 2020.

Добавлено: 10 апреля 2025 г.

Automation of Forensic Authorship Attribution: Problems and Prospects

Романова Т. В., Хоменко А. Ю., Legal Issues in the Digital Age 2022 Vol. 3 No. 2 P. 90–115

The article deals with validation of an integrative attribution algorithm based on the analysis of the author’s idiostyle using methods of interpretative linguistics with ob jectification of the available data with the help of mathematical statistics. The algo rithm addresses the identification problem of the attribution. The choice of parameters describing the individual style of ...

Добавлено: 12 марта 2025 г.

Proceedings of the 28th Conference on Computational Natural Language Learning

Association for Computational Linguistics, 2024.

Добавлено: 11 марта 2025 г.

Big Data Analytics Approach with Multiple Text Types: The Case of the Computer Gaming

Aleksandr Belov, Zakharov F., Litvinenko E. и др., , in: International IoT, Electronics and Mechatronics Conference, Volume 2. Proceedings of IEMTRONICS 2024. LNEE, volume 1228Vol. 1228.: Springer Publishing Company, 2025. P. 275–287.

Добавлено: 26 января 2025 г.

Automatic Morpheme Segmentation for Russian: Can an Algorithm Replace Experts?

Morozov D., Garipov T., Ляшевская О. Н. и др., Journal of Language and Education 2024 Vol. 10 No. 4 P. 71–84

Introduction: Numerous algorithms have been proposed for the task of automatic morpheme segmentation of Russian words. Due to the differences in task formulation and datasets utilized, comparing the quality of these algorithms is challenging. It is unclear whether the errors in the models are due to the ineffectiveness of algorithms themselves or to errors and inconsistencies ...

Добавлено: 7 января 2025 г.

Threatening Expression and Target Identification in Under-Resource Languages Using NLP Techniques

Малик М. Ш., Lecture Notes in Computer Science 2024 Vol. 14486 P. 3–17

Добавлено: 12 декабря 2024 г.