RuCLEVR: A Russian Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning

Публикации

?

RuCLEVR: A Russian Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning

Communications in Computer and Information Science. 2024. Vol. 2364 CCIS. P. 109 – 121.

Biryukova K., Chelnokova D., Erkenova J., Тихонова М. И.

Язык: английский

DOI

Correcting or Rewriting? An Expert Evaluation of LLM-Based GEC on Academic Learner Data

Kopylova E.V., Цегоева О. Г., Berlin V.A. и др., , in: Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной международной конференции «Диалог». Выпуск 24.Issue 24.: M.: Max press, 2026. Ch. 26 P. 1–10.

Данная статья посвящена исследованию того, как большие языковые модели исправляют сложные грамматические ошибки в академических учебных текстах на русском языке. В отличие от традиционныхGEC-систем, которые руководствуются принципом минимального исправления, большие языковые модели(LLM) часто применяют генеративные стратегии переписывания, которые могут улучшить восприятие текста, однако появляется риск гиперкоррекции структуры и семантических изменений. Мы представляем новый экспертный бенчмарк, основанный на русском ...

Добавлено: 27 июня 2026 г.

Mechanistic Permutability: Match Features Across Layers

Balagansky N., Максимов Я. В., Gavrilov D., , in: Proceedings of the 13th International Conference on Learning Representations (ICLR 2025).: ICLR, 2025. P. 57940–57957.

Добавлено: 25 февраля 2026 г.

Применение больших языковых моделей для анализа ценностно-патриотического дискурса русскоязычных пользователей

Балакина Ю. В., Григорьева М. В., Соколова Е. Н., Вестник Российского фонда фундаментальных исследований. Гуманитарные и общественные науки 2025 Т. 123 № 4 С. 56–69

Статья рассматривает возможности применения больших языковых моделей (LLM) для автоматизированного анализа ценностно-патриотического дискурса русскоязычных пользователей социальных медиа. На материале корпуса сообщений из VK, «Одноклассников» и Telegram (2023–2025 гг.) исследуется, насколько результаты автоматической кодировки совпадают с экспертной разметкой по специально разработанной категориальной схеме. Кодбук включает восемь измерений: базовые ценности по Ш. Шварцу, две оси Р. Инглхарта ...

Добавлено: 26 ноября 2025 г.

Rewriting the Rules: LLMs Vs. Traditional ML in University Admissions

Чепиков И. А., Карпов И. А., , in: 26th International Conference, AIED 2025, Palermo, Italy, July 22–26, 2025, Proceedings, Part I. Artificial Intelligence in Education. Posters and Late Breaking Results, Workshops and Tutorials, Industry and Innovation Tracks, Practitioners, Doctoral Consortium, Blue Sky, and WideAIED.: Springer, 2025. P. 352 – 358.

Добавлено: 4 сентября 2025 г.

Cultural Evaluation of LLMs in Russian: Catchphrases and Cultural Types

Громенко Е. С., Калачева Д. С., Клокова К. С. и др., , in: Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегодной международной конференции «Диалог» (2025).: [б.и.], 2025.

Наше исследование посвящено изучению культурной осведомленности больших языковых моделей о со временном русскоязычном социокультурном контексте. Для этого предложена структурированная система, включающая 8 культурных типов (например, Духовный практик, Советский интеллигент) и 5 групп речевых клише. На основе этой системы был разработан набор данных из 400 вопросов различных форматов для оценки фактологического знания культурных особенностей и более ...

Добавлено: 10 мая 2025 г.

Automatic Morpheme Segmentation for Russian: Can an Algorithm Replace Experts?

Morozov D., Garipov T., Ляшевская О. Н. и др., Journal of Language and Education 2024 Vol. 10 No. 4 P. 71–84

Introduction: Numerous algorithms have been proposed for the task of automatic morpheme segmentation of Russian words. Due to the differences in task formulation and datasets utilized, comparing the quality of these algorithms is challenging. It is unclear whether the errors in the models are due to the ineffectiveness of algorithms themselves or to errors and inconsistencies ...

Добавлено: 7 января 2025 г.

CLEVR-BT-DB: a benchmark dataset to evaluate the reasoning abilities of deep neural models in visual question answering problems

Latipov I., Andrey Borevskiy, Кертес-Фаркаш А., , in: Proceedings Volume 13169. Fifth International Conference On Computer Vision And Computational Intelligence (CVCI 2024) 29-31 January 2024, Bangkok, Thailand.: SPIE, 2024. Ch. 1316909.

Добавлено: 21 ноября 2024 г.

Cross-country analysis of science, technology and innovation policies: non-covid-19 related and Covid-19 specific STI policies in OECD countries

Russo M., Pavone P., Майснер Д. и др., Quality and Quantity 2025 Vol. 59 No. Suppl 1 P. S343–S367

In OECD countries, Science, Technology and Innovation (STI) policies were seen as key aspects of coping with the Covid-19 pandemic. Now that the pandemic is over, identifying which policy mix portfolios characterised countries in terms of their non-Covid-19 related and Covid-19 specific STI policies fills a knowledge gap on changes in STI policies induced by ...

Добавлено: 27 сентября 2024 г.

Truth-O-Meter: Handling Multiple Inconsistent Sources Repairing LLM Hallucinations

Galitsky B., Чернявский А. С., Ильвовский Д. А., , in: SIGIR '24: Proceedings of the 47th International ACM SIGIR Conference on Research and Development in Information Retrieval.: Association for Computing Machinery (ACM), 2024. P. 2817–2821.

Large Language Models (LLM) often produce text with incorrect facts and hallucinations. To address this issue, we developed a fact-checking system Truth-O-Meter which verifies LLM results on the Internet and other sources of information to detect wrong claims/facts and proposes corrections for them. NLP and reasoning techniques such as Abstract Meaning Representation and syntactic alignment are ...

Добавлено: 9 мая 2024 г.

Parameter-Efficient Tuning of Transformer Models for Anglicism Detection and Substitution in Russian

Daniil Lukichev, Kryanina Darya, Anastasia Bystrova и др., , in: Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной международной конференции «Диалог». Вып. 22.Вып. 22.: [б.и.], 2023. P. 295–306.

Добавлено: 25 апреля 2024 г.

Explainable Document Classification via Pattern Structures

Sergei O. Kuznetsov, Паракал Э. Д., Lecture Notes in Networks and Systems 2023 Vol. 776 P. 423–434

Добавлено: 5 февраля 2024 г.

Business Process Management Workshops. BPM 2023 International Workshops, Utrecht, The Netherlands, September 11–15, 2023, Revised Selected Papers

Switzerland: Springer, 2024.

Добавлено: 17 января 2024 г.

Проект Chekhov Digital: задачи и проблемы реализации семантической разметки текстов (на примере рассказа А. П. Чехова «Смерть чиновника»)

Северина Е. М., Ларионова М. Ч., Litera 2023 № 10 С. 211–222

В статье рассматривается модель подготовки машиночитаемой (семантической) разметки текстов для проекта Chekhov Digital на примере филологической интерпретации отдельных значимых элементов рассказа А. П. Чехова «Смерть чиновника» и представления этих сведений в явном виде с опорой на стандарты цифровой публикации Text Encoding Initiative (TEI/XML). Выявлены значимые сущности для разметки корпуса текстов писателя, однако вопрос их репрезентации ...

Добавлено: 12 января 2024 г.

РАЗРАБОТКА СИСТЕМЫ ГЕНЕРАЦИИ ПОВСЕДНЕВНЫХ ДИАЛОГОВ НА РУССКОМ ЯЗЫКЕ: ПИЛОТНОЕ ИССЛЕДОВАНИЕ

Кругликова В. Г., В кн.: Анализ речи: теоретические и прикладные аспекты: сборник научных статей.: [б.и.], 2023.

В статье представлен сравнительный анализ различных языковых моделей, используемых для генерации текстов, и произведена оценка их эффективности для задачи генерации диалоговой речи. В сравнительном анализе участвуют модели GPT-3, BERT, LSTM. Данное исследование является частью проекта по разработке системы генерации диалогов на русском языке. В работе также описана архитектура разрабатываемой системы и предложены примеры её использования. ...

Добавлено: 10 декабря 2023 г.

Investor sentiment and the NFT hype index: to buy or not to buy?

Бакланова В. С., Куркин А. В., Теплова Т. В., China Finance Review International 2024 Vol. 14 No. 3 P. 522–548

Добавлено: 10 декабря 2023 г.

Think about what you’ve learned: анализ тональности для моделирования пользовательского опыта в сфере онлайн-образования

Кирина М. А., Человек: образ и сущность. Гуманитарные аспекты 2024 № 2(58) С. 176–204

В статье рассматриваются способы автоматического анализа мнений для оценки пользовательского опыта применительно к отзывам на проекты в рамках онлайн-курсов по программированию на Python, Java и Kotlin, представленных на англоязычной образовательной платформе Hyperskill. В исследовании описывается подход с опорой на методы анализа тональности и извлечения ключевых слов для характеристики отношения пользователей к изучаемым темам, образовательному процессу ...

Добавлено: 9 декабря 2023 г.

Комбинирование методов для извлечения терминов из научно-технического текста

Большакова Е. И., Семак В. В., Интеллектуальные системы. Теория и приложения 2021 Т. 25 № 4 С. 239–242

Представлен подход к автоматическому извлечению терминов из отдельного научного текста, сочетающий в себе известные методы: лингвистические шаблоны, статистические меры терминологичности, методы ранжирования графов. Описаны комбинированные методы и этапы извлечения, отбора и ранжирования терминов, реализованные при обработке документов на русском языке. Представлены результаты экспериментов по извлечению терминов из учебных текстов по математике и программированию. Оценки эффективности ...

Добавлено: 23 ноября 2023 г.

Multimodal Discourse Trees in Forensic Linguistics

Galitsky B., Ильвовский Д. А., Гончарова Е. Ф., , in: Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной международной конференции «Диалог». Вып. 22.Вып. 22.: [б.и.], 2023.

В работе исследуется концепция построения мультимодального дискурсивного дерева для структурированного представления текста, обогащенного дополнительной информацией из источников различной природы. В более ранних работах были введены понятия коммуникативных дискурсивных деревьев, расширенных с помощью теории речевых актов, а также расширенных дискурсивных деревьев, которые отражают структуру не одного текста, а набора связанных документов; в данной работе мы исследуем возможность расширения дискурсивной структуры за счет ...

Добавлено: 10 ноября 2023 г.

Classification of Short Scientific Texts

I. K. Kusakin, Fedorets O. V., A. Y. Romanov, Scientific and Technical Information Processing 2023 Vol. 50 No. 3 P. 176–183

Добавлено: 4 ноября 2023 г.