Russian SuperGLUE 1.1: Revising the Lessons not Learned by Russian NLP-models

A. Fenogenova; M. Tikhonova; V. Mikhailov; T. Shavrina; Emelyanov A.; Shevelev D.; Kukushkin A.; Malykh V.; E. Artemova

doi:10.28995/2075-7182-2021-20-XX-XX

?

Russian SuperGLUE 1.1: Revising the Lessons not Learned by Russian NLP-models

Ch. 21. P. 235–245.

Феногенова А. С., Тихонова М. И., Михайлов В. Н., Шаврина Т. О., Emelyanov A., Shevelev D., Kukushkin A., Malykh V., Артемова Е. Л.

Научный редактор перевода: Селегей В.

В прошлом году на русскоязычном материале были обучены новые нейронные архитектуры, в том числе мультиязычные NLP-модели, что привело к новым вызовам в оценке качества решений задач понимания естественного языка. В этой статье представлен Russian SuperGLUE 1.1, бенчмарк на основе GLUE для оценки языковых моделей для русского языка. Новая версия включает в себя ряд технических обновлений, улучшение пользовательского опыта и устранение методологических уязвимостей версии 1.0., в том числе создание новых тестовых сетов и улучшение датасетов на понимание смысла слова в контексте (RUSSE), машинное чтение и здравый смысл (DaNetQA, RuCoS, MuSeRC). Кроме того, представлены технические обновления бенчмарка на основе фреймворка jiant для консистентного обучения и оценки NLP-моделей различных архитектур, включая самые последние модели для русского языка. Помимо обновления основного бенчмарка, мы представляем интеграцию бенчмарка Russian SuperGLUE с фреймворком для промышленной оценки моделей с открытым исходным кодом – MOROCCO (MOdel ResOurCe COmparison), в котором модели оцениваются по средневзвешенной метрике всех заданий, скорости быстродействия и занимаемого объема оперативной памяти. Материалы Russian SuperGLUE доступны по адресу https://russiansuperglue.com/.

Язык: английский

Полный текст

DOI

Текст на другом сайте

Ключевые слова: natural language processing benchmarking model evaluation NLU Natural Language Understanding evaluation Neural Language Processing (NLP)natural language understanding

В книге

Computational Linguistics and Intellectual Technologies: Papers from the Annual International Conference “Dialogue” (2021)

Issue 20: Основной том. , -, 2021.

Automatic Morpheme Segmentation for Russian: Can an Algorithm Replace Experts?

Morozov D., Garipov T., Ляшевская О. Н. и др., Journal of Language and Education 2024 Vol. 10 No. 4 P. 71–84

Introduction: Numerous algorithms have been proposed for the task of automatic morpheme segmentation of Russian words. Due to the differences in task formulation and datasets utilized, comparing the quality of these algorithms is challenging. It is unclear whether the errors in the models are due to the ineffectiveness of algorithms themselves or to errors and inconsistencies ...

Добавлено: 7 января 2025 г.

From Variability to Stability: Advancing RecSys Benchmarking Practices

Shevchenko V., Belousov N., Васильев А. В. и др., , in: KDD '24: Proceedings of the 30th ACM SIGKDD Conference on Knowledge Discovery and Data Mining.: Association for Computing Machinery (ACM), 2024. P. 5701–5712.

Добавлено: 24 ноября 2024 г.

Assessment of Digital Connectivity in Russian Regions

Архипова М. Ю., Сиротин В. П., , in: 2024 17th International Conference on Management of Large-Scale System Development (MLSD).: IEEE, 2024. Ch. 12 P. 1–4.

Добавлено: 14 октября 2024 г.

Cross-country analysis of science, technology and innovation policies: non-covid-19 related and Covid-19 specific STI policies in OECD countries

Russo M., Pavone P., Майснер Д. и др., Quality and Quantity 2024 P. 1–25

In OECD countries, Science, Technology and Innovation (STI) policies were seen as key aspects of coping with the Covid-19 pandemic. Now that the pandemic is over, identifying which policy mix portfolios characterised countries in terms of their non-Covid-19 related and Covid-19 specific STI policies fills a knowledge gap on changes in STI policies induced by ...

Добавлено: 27 сентября 2024 г.

Parameter-Efficient Tuning of Transformer Models for Anglicism Detection and Substitution in Russian

Daniil Lukichev, Kryanina Darya, Anastasia Bystrova и др., , in: Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной международной конференции «Диалог». Вып. 22.Вып. 22.: [б.и.], 2023. P. 295–306.

Добавлено: 25 апреля 2024 г.

Использование международных стандартов финансовой отчетности общественного сектора в целях подготовки финансовой отчетности вузами для последующего применения бенчмаркинга

Черткова А. В., Городилов М. А., Международный бухгалтерский учет 2018 Т. 21 № 11(449) С. 1253–1266

Предмет. Модернизация российского высшего образования напрямую связана с процессами внедрения в мировое образовательное пространство. Для повышения эффективности и соответствия международным требованиям российским образовательным учреждениям высшего образования необходимо обладать конкурентными преимуществами. С этой целью возможно использование такого инструмента как бенчмаркинг. Бенчмаркинг – это оценка передового опыта конкурентов для последующего применения лучших практик в процессе собственной деятельности. ...

Добавлено: 8 февраля 2024 г.

Explainable Document Classification via Pattern Structures

Sergei O. Kuznetsov, Паракал Э. Д., Lecture Notes in Networks and Systems 2023 Vol. 776 P. 423–434

Добавлено: 5 февраля 2024 г.

Направления реформирования бухгалтерского учета и отчетности государственных учреждений высшего образования России

Черткова А. В., Теория и практика общественного развития 2022 № 5 С. 46–50

В статье рассматривается вектор реформирования бухгалтерского учета и отчетности бюджетной сферы, в том числе, в отрасли высшего образования России. Преимущественно рассматривается государственная политика в области стандартизации общественного сектора. Рассмотрены и проанализированы изменения в учете и отчетности учреждений высшего образования России, связанные с внедрением федеральных стандартов бухгалтерского учета государственных финансов (ФСБУГФ), разработанных на основе Международных стандартов финансовой ...

Добавлено: 31 января 2024 г.

Business Process Management Workshops. BPM 2023 International Workshops, Utrecht, The Netherlands, September 11–15, 2023, Revised Selected Papers

Switzerland: Springer, 2024.

Добавлено: 17 января 2024 г.

Проект Chekhov Digital: задачи и проблемы реализации семантической разметки текстов (на примере рассказа А. П. Чехова «Смерть чиновника»)

Северина Е. М., Ларионова М. Ч., Litera 2023 № 10 С. 211–222

В статье рассматривается модель подготовки машиночитаемой (семантической) разметки текстов для проекта Chekhov Digital на примере филологической интерпретации отдельных значимых элементов рассказа А. П. Чехова «Смерть чиновника» и представления этих сведений в явном виде с опорой на стандарты цифровой публикации Text Encoding Initiative (TEI/XML). Выявлены значимые сущности для разметки корпуса текстов писателя, однако вопрос их репрезентации ...

Добавлено: 12 января 2024 г.

РАЗРАБОТКА СИСТЕМЫ ГЕНЕРАЦИИ ПОВСЕДНЕВНЫХ ДИАЛОГОВ НА РУССКОМ ЯЗЫКЕ: ПИЛОТНОЕ ИССЛЕДОВАНИЕ

Кругликова В. Г., В кн.: Анализ речи: теоретические и прикладные аспекты: сборник научных статей.: [б.и.], 2023.

В статье представлен сравнительный анализ различных языковых моделей, используемых для генерации текстов, и произведена оценка их эффективности для задачи генерации диалоговой речи. В сравнительном анализе участвуют модели GPT-3, BERT, LSTM. Данное исследование является частью проекта по разработке системы генерации диалогов на русском языке. В работе также описана архитектура разрабатываемой системы и предложены примеры её использования. ...

Добавлено: 10 декабря 2023 г.

Investor sentiment and the NFT hype index: to buy or not to buy?

Бакланова В. С., Куркин А. В., Теплова Т. В., China Finance Review International 2024 Vol. 14 No. 3 P. 522–548

Добавлено: 10 декабря 2023 г.

Think about what you’ve learned: анализ тональности для моделирования пользовательского опыта в сфере онлайн-образования

Кирина М. А., Человек: образ и сущность. Гуманитарные аспекты 2024 № 2(58) С. 176–204

В статье рассматриваются способы автоматического анализа мнений для оценки пользовательского опыта применительно к отзывам на проекты в рамках онлайн-курсов по программированию на Python, Java и Kotlin, представленных на англоязычной образовательной платформе Hyperskill. В исследовании описывается подход с опорой на методы анализа тональности и извлечения ключевых слов для характеристики отношения пользователей к изучаемым темам, образовательному процессу ...

Добавлено: 9 декабря 2023 г.

Комбинирование методов для извлечения терминов из научно-технического текста

Большакова Е. И., Семак В. В., Интеллектуальные системы. Теория и приложения 2021 Т. 25 № 4 С. 239–242

Представлен подход к автоматическому извлечению терминов из отдельного научного текста, сочетающий в себе известные методы: лингвистические шаблоны, статистические меры терминологичности, методы ранжирования графов. Описаны комбинированные методы и этапы извлечения, отбора и ранжирования терминов, реализованные при обработке документов на русском языке. Представлены результаты экспериментов по извлечению терминов из учебных текстов по математике и программированию. Оценки эффективности ...

Добавлено: 23 ноября 2023 г.

Multimodal Discourse Trees in Forensic Linguistics

Galitsky B., Ильвовский Д. А., Гончарова Е. Ф., , in: Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной международной конференции «Диалог». Вып. 22.Вып. 22.: [б.и.], 2023.

В работе исследуется концепция построения мультимодального дискурсивного дерева для структурированного представления текста, обогащенного дополнительной информацией из источников различной природы. В более ранних работах были введены понятия коммуникативных дискурсивных деревьев, расширенных с помощью теории речевых актов, а также расширенных дискурсивных деревьев, которые отражают структуру не одного текста, а набора связанных документов; в данной работе мы исследуем возможность расширения дискурсивной структуры за счет ...

Добавлено: 10 ноября 2023 г.

Classification of Short Scientific Texts

I. K. Kusakin, Fedorets O. V., A. Y. Romanov, Scientific and Technical Information Processing 2023 Vol. 50 No. 3 P. 176–183

Добавлено: 4 ноября 2023 г.

Parameter-Efficient Tuning of Transformer Models for Anglicism Detection and Substitution in Russian

Daniil Lukichev, Kryanina D., Anastasia Bystrova и др., , in: Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной международной конференции «Диалог». Вып. 22.Вып. 22.: [б.и.], 2023. P. 295–306.

Добавлено: 22 сентября 2023 г.