?
Многоаспектная оценка методов адаптации токенизатора для больших языковых моделей на русском языке
Большие языковые модели (Large language model, LLM), предобученные на корпусах, состоящих из большинства текстов на английском языке, показывают более низкое качество и работают неоптимально на других естественных языках. Адаптация словаря LLM обеспечивает ресурсоэффективный способ повышения качества предобученной модели. Ранее предложенные методы адаптации фокусировались на метриках качества (точности) и размера (фертильности), игнорируя другие аспекты, такие как задержка, вычислительные затраты на адаптацию и степень катастрофического забывания. Данная статья восполняет этот пробел и предлагает многоаспектное сравнение нескольких методов адаптации токенизаторов для фиксированной LLM на основе декодера. В наших экспериментах мы сосредоточились только на тексте на русском языке для обеспечения чистоты эксперимента в условиях ограниченных ресурсов. В контролируемых условиях мы сравнили три метода. Работа устанавливает новые базовые показатели адаптации токенизатора к русскому языку и демонстрирует вычислительно эффективный способ повышения производительности, снижая потребление GPU-часов в 2–3 раза.