?
Методы и средства извлечения терминов из текстов для терминологических задач
Рассматривается современное состояние в области автоматического извлечения терминов из специализированных текстов на естественном языке, включая научно-технические документы. К числу актуальных практических приложений методов и средств извлечения терминов из текстов относятся создание терминологических словарей, тезаурусов и глоссариев предметных областей, а также выявление ключевых слов и построение предметных указателей для узкоспециализированных документов.
Обзорно излагаются применяемые подходы к автоматическому распознаванию и извлечению терминологических слов и словосочетаний, которые охватывают традиционные статистические методы, а также методы на основе машинного обучения, включая обучение по признакам терминов и обучение с применением современных нейросетевых языковых моделей. Проводится сравнение подходов, в том числе оценки качества распознавания и извлечения терминов, указываются наиболее известные программные средства для автоматизации извлечения терминов в рамках статистического подхода и обучения по признакам.
Описываются исследования, проведенные авторами для распознавания терминов на базе нейросетевых языковых моделей, применительно к обработке научных текстов по математике и программированию на русском языке. Кратко характеризуется набор данных с терминологической разметкой, созданный для обучения программных моделей распознавания терминов и охватывающий данные семи близких предметных областей. Разработка программных моделей велась на основе предобученной нейросетевой модели BERT, c ее дообучением двумя способами: как бинарного классификатора терминов-кандидатов (предварительно извлеченных из текстов) и как классификатора для последовательной разметки терминологических слов в обрабатываемых текстах. Для разработанных моделей экспериментально определены оценки качества распознавания терминов, проведено сравнение со статистическим методом. Лучшее качество демонстрируют модели бинарной классификации, существенно превосходя остальные рассмотренные подходы. Проведенные эксперименты показывают также применимость обученных моделей для текстов близкой научной области