?
Языковые модели для предобработки текстов в машинном переводе
Рассмотрена модель использования скелетных структур на базе синтаксической разметки для предобработки корпусов текстов перед передачей в нейросетевые модели машинного перевода с целью повышения качества их работы, реализованная с помощью частеречной и синтаксической разметок корпусов текстов, использующих языковую модель, с использованием сети BERT и набора правил. Описана подготовка данных для обучения и предложены способы повышения эффективности языковых моделей на ограниченном наборе данных частеречной разметки, которая используется для получения синтаксической разметки, определения типов предложения и изменения порядка слов согласно заранее заданным правилам. Использование предложенной модели совместно с языковыми моделями для машинного перевода Google и Яндекс позволило увеличить качество машинного перевода на 0.1-0.23 пункта по метрикам BLEU и TER c языковыми парами русскийанглийский и немецкий-английский.