Многоаспектная оценка методов адаптации токенизатора для больших языковых моделей на русском языке

Андрющенко Г. Д.; М. Э. Годунова; Иванов В. В.; Д. С. Кузьмин; А. А. Паринов; Щенникова А. Ю.; Е. В. Жемчужина

doi:10.7868/S2686954325070288

?

Многоаспектная оценка методов адаптации токенизатора для больших языковых моделей на русском языке

Доклады Российской академии наук. Математика, информатика, процессы управления (ранее - Доклады Академии Наук. Математика). 2025. Т. 527. С. 320–331.

Андрющенко Г. Д., Годунова М. Э., Иванов В. В., Кузьмин Д. С., Паринов А. А., Щенникова А. Ю., Жемчужина Е. В.

Большие языковые модели (Large language model, LLM), предобученные на корпусах, состоящих из большинства текстов на английском языке, показывают более низкое качество и работают неоптимально на других естественных языках. Адаптация словаря LLM обеспечивает ресурсоэффективный способ повышения качества предобученной модели. Ранее предложенные методы адаптации фокусировались на метриках качества (точности) и размера (фертильности), игнорируя другие аспекты, такие как задержка, вычислительные затраты на адаптацию и степень катастрофического забывания. Данная статья восполняет этот пробел и предлагает многоаспектное сравнение нескольких методов адаптации токенизаторов для фиксированной LLM на основе декодера. В наших экспериментах мы сосредоточились только на тексте на русском языке для обеспечения чистоты эксперимента в условиях ограниченных ресурсов. В контролируемых условиях мы сравнили три метода. Работа устанавливает новые базовые показатели адаптации токенизатора к русскому языку и демонстрирует вычислительно эффективный способ повышения производительности, снижая потребление GPU-часов в 2–3 раза.

Научное направление: Компьютерные науки

Язык: русский

Полный текст

DOI

Текст на другом сайте

Ключевые слова: большие языковые модели Large language models (LLM)tokenizer adaptation text generation quality text generation speed АДАПТАЦИЯ ТОКЕНИЗАТОРА КАЧЕСТВО ГЕНЕРАЦИИ ТЕКСТА СКОРОСТЬ ГЕНЕРАЦИИ ТЕКСТА

Three Algorithms for Merging Hierarchical Navigable Small World Graphs

Пономаренко А. А., / Series Computer Science "arxiv.org". 2025.

Добавлено: 30 июля 2026 г.

Профессиональная верификация: Руководство по продвинутой функциональной верификации

Уилкокс П., Романов А. Ю., М.: ДМК Пресс, 2025.

Книга, которую вы держите в руках, продолжает серию «Книжная полка истового инженера», которая издается при поддержке компании YADRO. Данная книга представляет собой учебник по теоретическим основам продвинутой функциональной верификации и содержит лучшие практики, используемые в настоящее время. В ней подробно описана унифицированная методология верификации (UVM) и раскрыты такие темы, как функциональный виртуальный прототип, функциональное покрытие, утверждения, формальная верификация, тестбенчи, косимуляция, эмуляция, аппаратное ...

Добавлено: 30 июля 2026 г.

EEG evidence for reproducible neural states during Buddhist Highest Yoga Tantra meditation

Mikhaylets E. V., Razorenova A. М., Chernyshev V. L. и др., Scientific Reports 2026 Vol. 16 Article 23560

Добавлено: 29 июля 2026 г.

Machine Learning-based Adaptive Reconstruction of Video Stream Fragments Taking into Account Scene Dynamics. Proceedings of the Institute for System Programming of the RAS

Думкин Н. А., Александров Д. В., Прозорский М. А., Труды Института системного программирования РАН 2026 Т. 38 № 1 С. 255–274

Предложен теоретически обоснованный подход к адаптивному восстановлению видеофрагментов на стороне клиента с использованием методов машинного обучения и анализа сцены. Метод включает формальную постановку задачи, модель конечного автомата для принятия решений, функцию стоимости восстановления, а также новый этап в подготовке видео – оценку динамики сцены с последующей записью признака в HLS-плейлист. Такой признак позволяет повысить точность выбора методов восстановления фрагментов видео. ...

Добавлено: 27 июля 2026 г.

Automated Reasoning: 13th International Joint Conference, IJCAR 2026, Lisbon, Portugal, July 26–29, 2026, Proceedings, Part II. (LNCS, volume 16689)

Cham: Springer, 2026.

Добавлено: 26 июля 2026 г.

Local Fault-Tolerant Routing in 3D Mesh NoCs using Single-Hop Rollback

Edward R. Rzaev, Aleksandr Y. Romanov, Andrey M. Sukhov, IEEE Access 2026 Vol. 14 P. 2169–3536

Добавлено: 23 июля 2026 г.

Библиометрия фольклора: русские пословицы в научных журналах

Писляков В. В., Вестник Томского государственного университета. Филология 2026 № 101 С. 175–192

Исследуется использование паремий в статьях, опубликованных в отечественных научных журналах. В результате поиска по платформе eLIBRARY.RU и постатейного просмотра полных текстов формируется «паремический массив» – набор журнальных статей, вышедших за 2014–2023 гг., в которых встречается одна из десяти исследуемых пословиц. Выделяются только случаи, когда пословицы используются авторами как пришедшиеся к слову изречения, а не как ...

Добавлено: 22 июля 2026 г.

SIGIR '26: Proceedings of the 49th International ACM SIGIR Conference on Research and Development in Information Retrieval

Association for Computing Machinery (ACM), 2026.

Добавлено: 22 июля 2026 г.

Long-range machine-learning potentials with environment-dependent charges enable predicting LO-TO splitting and dielectric constants

Korogod D., Shapeev A., Ivan S. Novikov, Physical Review B: Condensed Matter and Materials Physics 2026 Vol. 114 No. 2 Article 024104

Добавлено: 22 июля 2026 г.

Global optimization of atomic clusters via physically constrained tensor train decomposition

Sozykin K., Rybin N., Chertkov A. и др., Physical Review B: Condensed Matter and Materials Physics 2026 Vol. 113 No. 22 Article 224111

Добавлено: 22 июля 2026 г.

WSI-GT: Pseudo-Label Guided Graph Transformer for Whole-Slide Histology

Михайлов И. А., Machine Learning and Knowledge Extraction 2026 Vol. 8 No. 1 Article 8

Whole-slide histology images (WSIs) can exceed 100 k × 100 k pixels, making direct pixel-level segmentation infeasible and requiring patch-level classification as a practical alternative for downstream WSI segmentation. However, most approaches either treat patches independently, ignoring spatial and biological context, or rely on deep graph models prone to oversmoothing and loss of local tissue ...

Добавлено: 16 июля 2026 г.

On the construction of Barnes–Wall lattices and their application in cryptography

Кунинец А. А., Малыгина Е. С., Leevik A. G. и др., Journal of Computer Virology and Hacking Techniques 2026 No. 22 Article 62

Добавлено: 16 июля 2026 г.

Tencent и Open Source. Как относится к открытому ПО самый дорогой бренд Китая?

Силаков Д. В., Системный администратор 2026 № 5 С. 46–51

В предыдущей статье про Open Source в КНР [1] мы рассказали про Alibaba – крупную корпорацию, занимающую тридцатое место в рейтинге самых значимых мировых брэндов за 2025 год [2]. Место почетное, но не первое среди китайских компаний – на тринадцатом месте расположилась Tencent, разработчик WeChat и ряда других продуктов, широко используемых нашими восточными соседями. Tencent ...

Добавлено: 14 июля 2026 г.

2026 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)

IEEE, 2026.

Добавлено: 13 июля 2026 г.

Mathematical Optimization Theory and Operations Research, 25th International Conference, MOTOR 2026 Irkutsk, Russia, July 6–11, 2026 Proceedings

Switzerland: Springer, 2026.

Добавлено: 12 июля 2026 г.

Задачи бесконечной регулярной реализуемости

Шиманогов И. Н., Вялый М. Н., Дискретный анализ и исследование операций 2025 Т. 32 № 4(166) С. 213–230

Хорошо изученным классом алгоритмических задач являются задачи регулярной реализуемости: проверка непустоты пересечения регулярного языка с заданным языком. Данная задача имеет естественную алгебраическую интерпретацию: проверка принадлежности элемента булевой алгебры ядру определенного гомоморфизма. Это мотивирует рассмотрение аналогичной задачи бесконечной регулярной реализуемости: проверка бесконечности пересечения регулярного языка с заданным. В работе рассматриваются задачи регулярной реализуемости для разрешимых языков ...

Добавлено: 12 июля 2026 г.

Improving Differential Equation Solving in Compact Language Models via Activation Steering and Reinforcement Learning

Сурков А. Ю., Игнатенко В. В., Koltcov Sergei, Computers, Materials and Continua 2026

Добавлено: 8 июля 2026 г.

Computational Science and Its Applications – ICCSA 2026 Workshops

Springer, 2027.

Добавлено: 8 июля 2026 г.

Conference Proceedings: 2026 IEEE Ural-Siberian Conference on Biomedical Engineering, Radioelectronics and Information Technology (USBEREIT), 14-15 May 2026

IEEE, 2026.

Добавлено: 8 июля 2026 г.

Моделирование специализированных алгоритмов маршрутизации в сетях на кристалле, представленных сериями семейств циркулянтных топологий

Маликов М. А., Монахова Э. А., Рзаев Э. Р. и др., Ученые записки Казанского университета. Серия: Физико-математические науки 2026 Т. 168 № 2 С. 269–286

В качестве топологий сетей на кристалле рассмотрены серии семейств оптимальных по диаметру двумерных циркулянтных сетей с прямоугольным контуром укладки на плоскости. Прямоугольный контур укладки графа межмодульных соединений даёт возможность компоновки элементов в сетях на кристалле с минимальным количеством пересечений связей и ограниченной длиной максимальной из них, не зависящей от размера сети. Для серий семейств циркулянтных сетей с ...

Добавлено: 8 июля 2026 г.

Algorithmic overlaps as thermodynamic variables: From local to cluster Monte Carlo dynamics in critical phenomena

Пиле Я. Э., Deng Y., Щур Л. Н., Physical Review B: Condensed Matter and Materials Physics 2026 Vol. 114 No. 1 Article 014101

Добавлено: 6 июля 2026 г.

Журнал Телекоммуникации №1 за 2026

М.: Наука и технологии, 2026.

«Телекоммуникации» ежемесячный рецензируемый производственный, информационно-аналитический и учебно-методический журнал выходит в свет с июля 2000 г. Для руководителей и работников промышленности, научно-исследовательских и проектно-конструкторских институтов, высших учебных заведений, аспирантов и студентов, а также для специалистов, разрабатывающих, выпускающих и эксплуатирующих средства телекоммуникаций. Новости разработок и производства, прогнозы развития, защита информации, Нормативные, справочные, аналитические и учебно-методические материалы. Переход к глобальному информационному ...

Добавлено: 4 июля 2026 г.

"Труды МФТИ" Том 17, № 4 (68) (2025)

МФТИ, 2025.

абота редакции научного журнала «Труды Московского физико-технического института» (кратко «Труды МФТИ»), редакционной коллегии и редакционного совета осуществляется в соответствии с Положением, утвержденным ректором института. В состав редакционной коллегии входят руководители института, факультетов, институтских и факультетских кафедр. Главный редактор журнала —президент МФТИ, член-корр. РАН Кудрявцев Н.Н. Журнал «Труды МФТИ» входит в базу данных РИНЦ (Российский Индекс Научного Цитирования) и доступен в электронной ...

Добавлено: 4 июля 2026 г.

Large Language Model-Based Automated Item Generation in STEM Assessments: Historical Mapping and a Scoping Review of Empirical Studies

Омопекунола М. О., JOURNAL OF EDUCATIONAL TECHNOLOGY DEVELOPMENT AND EXCHANGE 2026 Vol. 19 No. 2 P. 141–165

Добавлено: 9 июня 2026 г.