Языковые модели для предобработки текстов в машинном переводе

А. В. Мыльникова; Л. А. Мыльников

doi:10.36535/0548-0027-2025-07-3

Публикации

?

Языковые модели для предобработки текстов в машинном переводе

Научно-техническая информация. Серия 2: Информационные процессы и системы. 2025. № 7. С. 32–44.

Мыльникова А. В., Мыльников Л. А.

Рассмотрена модель использования скелетных структур на базе синтаксической разметки для предобработки корпусов текстов перед передачей в нейросетевые модели машинного перевода с целью повышения качества их работы, реализованная с помощью частеречной и синтаксической разметок корпусов текстов, использующих языковую модель, с использованием сети BERT и набора правил. Описана подготовка данных для обучения и предложены способы повышения эффективности языковых моделей на ограниченном наборе данных частеречной разметки, которая используется для получения синтаксической разметки, определения типов предложения и изменения порядка слов согласно заранее заданным правилам. Использование предложенной модели совместно с языковыми моделями для машинного перевода Google и Яндекс позволило увеличить качество машинного перевода на 0.1-0.23 пункта по метрикам BLEU и TER c языковыми парами русскийанглийский и немецкий-английский.

Научное направление: Компьютерные науки

Язык: русский

DOI

Ключевые слова: NLP корпус текстов синтаксическая разметка машинный перевод классификация предложений по цели высказывания языковая модель частеречная разметка BERT скелетная структура текста LLM

Local Fault-Tolerant Routing in 3D Mesh NoCs using Single-Hop Rollback

Edward R. Rzaev, Aleksandr Y. Romanov, Andrey M. Sukhov, IEEE Access 2026

Добавлено: 23 июля 2026 г.

Библиометрия фольклора: русские пословицы в научных журналах

Писляков В. В., Вестник Томского государственного университета. Филология 2026 № 101 С. 175–192

Исследуется использование паремий в статьях, опубликованных в отечественных научных журналах. В результате поиска по платформе eLIBRARY.RU и постатейного просмотра полных текстов формируется «паремический массив» – набор журнальных статей, вышедших за 2014–2023 гг., в которых встречается одна из десяти исследуемых пословиц. Выделяются только случаи, когда пословицы используются авторами как пришедшиеся к слову изречения, а не как ...

Добавлено: 22 июля 2026 г.

Long-range machine-learning potentials with environment-dependent charges enable predicting LO-TO splitting and dielectric constants

Korogod D., Shapeev A., Новиков И. С., Physical Review B: Condensed Matter and Materials Physics 2026 Vol. 114 No. 2 Article 024104

Добавлено: 22 июля 2026 г.

Global optimization of atomic clusters via physically constrained tensor train decomposition

Sozykin K., Rybin N., Chertkov A. и др., Physical Review B: Condensed Matter and Materials Physics 2026 Vol. 113 No. 22 Article 224111

Добавлено: 22 июля 2026 г.

WSI-GT: Pseudo-Label Guided Graph Transformer for Whole-Slide Histology

Михайлов И. А., Machine Learning and Knowledge Extraction 2026 Vol. 8 No. 1 Article 8

Whole-slide histology images (WSIs) can exceed 100 k × 100 k pixels, making direct pixel-level segmentation infeasible and requiring patch-level classification as a practical alternative for downstream WSI segmentation. However, most approaches either treat patches independently, ignoring spatial and biological context, or rely on deep graph models prone to oversmoothing and loss of local tissue ...

Добавлено: 16 июля 2026 г.

On the construction of Barnes–Wall lattices and their application in cryptography

Кунинец А. А., Малыгина Е. С., Leevik A. G. и др., Journal of Computer Virology and Hacking Techniques 2026 No. 22 Article 62

Добавлено: 16 июля 2026 г.

Tencent и Open Source. Как относится к открытому ПО самый дорогой бренд Китая?

Силаков Д. В., Системный администратор 2026 № 5 С. 46–51

В предыдущей статье про Open Source в КНР [1] мы рассказали про Alibaba – крупную корпорацию, занимающую тридцатое место в рейтинге самых значимых мировых брэндов за 2025 год [2]. Место почетное, но не первое среди китайских компаний – на тринадцатом месте расположилась Tencent, разработчик WeChat и ряда других продуктов, широко используемых нашими восточными соседями. Tencent ...

Добавлено: 14 июля 2026 г.

2026 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)

IEEE, 2026.

Добавлено: 13 июля 2026 г.

Mathematical Optimization Theory and Operations Research, 25th International Conference, MOTOR 2026 Irkutsk, Russia, July 6–11, 2026 Proceedings

Switzerland: Springer, 2026.

Добавлено: 12 июля 2026 г.

Задачи бесконечной регулярной реализуемости

Шиманогов И. Н., Вялый М. Н., Дискретный анализ и исследование операций 2025 Т. 32 № 4(166) С. 213–230

Хорошо изученным классом алгоритмических задач являются задачи регулярной реализуемости: проверка непустоты пересечения регулярного языка с заданным языком. Данная задача имеет естественную алгебраическую интерпретацию: проверка принадлежности элемента булевой алгебры ядру определенного гомоморфизма. Это мотивирует рассмотрение аналогичной задачи бесконечной регулярной реализуемости: проверка бесконечности пересечения регулярного языка с заданным. В работе рассматриваются задачи регулярной реализуемости для разрешимых языков ...

Добавлено: 12 июля 2026 г.

Improving Differential Equation Solving in Compact Language Models via Activation Steering and Reinforcement Learning

Сурков А. Ю., Игнатенко В. В., Koltcov Sergei, Computers, Materials and Continua 2026

Добавлено: 8 июля 2026 г.

Computational Science and Its Applications – ICCSA 2026 Workshops

Springer, 2027.

Добавлено: 8 июля 2026 г.

Conference Proceedings: 2026 IEEE Ural-Siberian Conference on Biomedical Engineering, Radioelectronics and Information Technology (USBEREIT), 14-15 May 2026

IEEE, 2026.

Добавлено: 8 июля 2026 г.

Моделирование специализированных алгоритмов маршрутизации в сетях на кристалле, представленных сериями семейств циркулянтных топологий

Маликов М. А., Монахова Э. А., Рзаев Э. Р. и др., Ученые записки Казанского университета. Серия: Физико-математические науки 2026 Т. 168 № 2 С. 269–286

В качестве топологий сетей на кристалле рассмотрены серии семейств оптимальных по диаметру двумерных циркулянтных сетей с прямоугольным контуром укладки на плоскости. Прямоугольный контур укладки графа межмодульных соединений даёт возможность компоновки элементов в сетях на кристалле с минимальным количеством пересечений связей и ограниченной длиной максимальной из них, не зависящей от размера сети. Для серий семейств циркулянтных сетей с ...

Добавлено: 8 июля 2026 г.

Algorithmic overlaps as thermodynamic variables: From local to cluster Monte Carlo dynamics in critical phenomena

Пиле Я. Э., Deng Y., Щур Л. Н., Physical Review B: Condensed Matter and Materials Physics 2026 Vol. 114 No. 1 Article 014101

Добавлено: 6 июля 2026 г.

Журнал Телекоммуникации №1 за 2026

М.: Наука и технологии, 2026.

«Телекоммуникации» ежемесячный рецензируемый производственный, информационно-аналитический и учебно-методический журнал выходит в свет с июля 2000 г. Для руководителей и работников промышленности, научно-исследовательских и проектно-конструкторских институтов, высших учебных заведений, аспирантов и студентов, а также для специалистов, разрабатывающих, выпускающих и эксплуатирующих средства телекоммуникаций. Новости разработок и производства, прогнозы развития, защита информации, Нормативные, справочные, аналитические и учебно-методические материалы. Переход к глобальному информационному ...

Добавлено: 4 июля 2026 г.

"Труды МФТИ" Том 17, № 4 (68) (2025)

МФТИ, 2025.

абота редакции научного журнала «Труды Московского физико-технического института» (кратко «Труды МФТИ»), редакционной коллегии и редакционного совета осуществляется в соответствии с Положением, утвержденным ректором института. В состав редакционной коллегии входят руководители института, факультетов, институтских и факультетских кафедр. Главный редактор журнала —президент МФТИ, член-корр. РАН Кудрявцев Н.Н. Журнал «Труды МФТИ» входит в базу данных РИНЦ (Российский Индекс Научного Цитирования) и доступен в электронной ...

Добавлено: 4 июля 2026 г.

Modulation Recognition for Industrial Internet of Things Communication Signals Under Few-Shot Conditions Based on Attention Mechanism and Relation Network

Hualin M., Jie Z., Jerome Y. и др., Journal of Internet Technology 2026 Vol. 27 No. 3 P. 367–382

Добавлено: 3 июля 2026 г.

Кодовые конструкции на базе обобщенных каскадных кодов для систем связи, использующих прием на основе порядковых статистик

Осипов Д. С., Информационно-управляющие системы 2026 № 3 С. 49–62

Введение: во многих проектируемых в настоящее время и перспективных системах связи методы оценивания характеристик канала и управления мощностью сигнала, разработанные для систем связи предыдущих поколений, не могут обеспечить требуемую точность оценивания и выравнивания мощности сигналов на приемном конце. Одним из вариантов решения этой проблемы является использование методов приема на основе порядковых статистик, которые не требуют управления мощностью ...

Добавлено: 3 июля 2026 г.

Graph Games and Logic Design. Recent Developments and Further Directions. (TREN, volume 66)

Springer, 2026.

Добавлено: 30 июня 2026 г.

The 12th International Conference on Information Technology and Quantitative Management (ITQM 2025)

Netherlands: ScienceDirect, 2025.

Добавлено: 28 июня 2026 г.

Correcting or Rewriting? An Expert Evaluation of LLM-Based GEC on Academic Learner Data

Копылова Е. В., Цегоева О. Г., Берлин В. А. и др., , in: Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной международной конференции «Диалог». Выпуск 24.Issue 24.: M.: Max press, 2026. Ch. 26 P. 1–10.

Данная статья посвящена исследованию того, как большие языковые модели исправляют сложные грамматические ошибки в академических учебных текстах на русском языке. В отличие от традиционныхGEC-систем, которые руководствуются принципом минимального исправления, большие языковые модели(LLM) часто применяют генеративные стратегии переписывания, которые могут улучшить восприятие текста, однако появляется риск гиперкоррекции структуры и семантических изменений. Мы представляем новый экспертный бенчмарк, основанный на русском ...

Добавлено: 27 июня 2026 г.

Анализ культурных референций в творчестве А. Вознесенского: цифровое исследование имен персоналий

Тюрякова-Матвеева Д. В., Цифровые гуманитарные исследования 2026 № 1 С. 4–26

Статья исследует культурные референции в творчестве Андрея Вознесенского путем анализа упоминаемых им персоналий. Обработано 1678 произведений, включая поэзию, прозу и ранние неопубликованные стихотворения. Методы NER, основанные на инструментах Natasha, spaCy и LLM Grok, позволили изучить частоту упоминания известных лиц и их связь с жанром произведения. Определены ключевые авторы Вознесенского (Пастернак, Пушкин, Маяковский), выявлены особенности жанра ...

Добавлено: 31 мая 2026 г.

Метод распознавания сентимента и эмоций в транскрипциях русскоязычной речи с использованием машинного перевода

Двойникова А. А., Кагиров И. А., Карпов А. А., Информатика и автоматизация (Труды СПИИРАН) 2024

В статье рассматривается проблема распознавания сентимента и эмоций пользователей в русскоязычных текстовых транскрипциях речи с использованием словарных методов и машинного перевода. Количество имеющихся информационных ресурсов для анализа сентимента текстовых сообщений на русском языке очень ограничено, что существенно затрудняет применение базовых методов анализа сентимента, а именно, предобработки текстов, векторизации с помощью тональных словарей, традиционных классификаторов. Для ...

Добавлено: 25 апреля 2026 г.