LLM-Microscope: Uncovering the Hidden Role of Punctuation in Context Memory of Transformers

Anton R.; Mikhalchuk M.; Rahmatullaev T.; E. Goncharova; Druzhinina P.; Oseledets I.; Kuznetsov A.

doi:10.18653/v1/2025.findings-naacl.432

Публикации

?

LLM-Microscope: Uncovering the Hidden Role of Punctuation in Context Memory of Transformers

P. 7757–7764.

Anton R., Mikhalchuk M., Rahmatullaev T., Гончарова Е. Ф., Druzhinina P., Oseledets I., Kuznetsov A.

Мы предлагаем методы количественной оценки того, как большие языковые модели (LLM) кодируют и хранят контекстную информацию, и показываем, что токены, обычно считающиеся второстепенными (например, детерминативы и знаки препинания), на деле несут неожиданно высокий объём контекста. В частности, удаление таких токенов — особенно стоп-слов, артиклей и запятых — стабильно ухудшает качество на MMLU и BABILong-4k, даже когда удаляются лишь кажущиеся нерелевантными токены. Наш анализ также выявляет сильную связь между «контекстуализированностью» и линейностью, где линейность измеряет, насколько хорошо переход от представлений одного слоя к следующему можно аппроксимировать одной линейной отображающей матрицей. Эти результаты подчёркивают скрытую важность «заполняющих» токенов для поддержания контекста. Для дальнейшего исследования мы представляем LLM-Microscope — открытый инструментарий, который оценивает нелинейность на уровне токенов, измеряет контекстную память, визуализирует вклад промежуточных слоёв (с помощью адаптированного Logit Lens) и определяет внутреннюю размерность представлений. Этот набор инструментов демонстрирует, что на первый взгляд тривиальные токены могут быть критически важны для понимания дальнодействующих зависимостей.

Язык: английский

DOI

Текст на другом сайте

Ключевые слова: NLP интерпретируемость interpretability LLM большие языковые модели Обработка естественного языка (NLP)

В книге

Findings of the Association for Computational Linguistics: NAACL 2025

Association for Computational Linguistics, 2025.

Rank‑Turbulence Delta and interpretable approaches to stylometric Delta measures

Evgeny Kazartsev, Dmitry Pronin, Digital Scholarship in the Humanities 2026 P. 1–15

Добавлено: 4 июня 2026 г.

Анализ культурных референций в творчестве А. Вознесенского: цифровое исследование имен персоналий

Тюрякова-Матвеева Д. В., Цифровые гуманитарные исследования 2026 № 1 С. 4–26

Статья исследует культурные референции в творчестве Андрея Вознесенского путем анализа упоминаемых им персоналий. Обработано 1678 произведений, включая поэзию, прозу и ранние неопубликованные стихотворения. Методы NER, основанные на инструментах Natasha, spaCy и LLM Grok, позволили изучить частоту упоминания известных лиц и их связь с жанром произведения. Определены ключевые авторы Вознесенского (Пастернак, Пушкин, Маяковский), выявлены особенности жанра ...

Добавлено: 31 мая 2026 г.

Optimizing Computational Infrastructure for Large Language Models in Bioinformatics: A Case Study

Бекназаров Н. С., , in: Parallel Computational Technologies, 19th International Conference, PCT 2025, Moscow, Russia, April 8–10, 2025, Revised Selected Papers. (CCIS, volume 2891)Vol. 2891.: Springer, 2026. P. 3–16.

Добавлено: 19 мая 2026 г.

От неизвестности к прозрачности: обзор технологий объяснимого ИИ (XAI)

Авдошин С. М., Песоцкая Е. Ю., Информационные технологии 2026 Т. 32 № 4 С. 185–194

С развитием ИИ, и в особенности глубокого обучения, появились модели, способные давать крайне точные прогнозы. Однако их внутренняя логика остается трудной для понимания — и это серьезная проблема, особенно в сферах, где от корректности алгоритма зависят критиче ски важные решения. Одним из перспективных путей ее решения считается направление Explainable Artificial Intelligence (XAI) — разработка подходов, позволяющих прояснять ...

Добавлено: 8 мая 2026 г.

Персонализированная обратная связь на основе искусственного интеллекта: модель для магистратуры гуманитарного профиля

Подболотова М. И., Адамский А. И., Колачев Н. И. и др., Высшее образование в России 2026 Т. 35 № 4 С. 21–35

Цель статьи – представить и обосновать педагогическую модель персонализированной обратной связи на основе больших языковых моделей (LLM) для образовательного процесса в магистратуре гуманитарного профиля. Актуальность исследования обусловлена задачами цифровой трансформации высшего образования в РФ, обозначенными в указе Президента № 474 от 21.07.2021 «О национальных целях развития до 2030 года», и необходимостью внедрения гибких, адаптивных образовательных ...

Добавлено: 4 мая 2026 г.

Об идеологических предвзятостях генеративного ИИ: Российско-украинский конфликт в репрезентации ChatGPT

Байша О. А., Трофимов В. В., Российская школа связей с общественностью 2026 № 40 С. 171–191

Все большее количество ученых предупреждает об опасности воспроизведения генеративным ИИ социально-политических и идеологических предрассудков, впитанных моделями из текстов, на которых они обучались. Если, например, та или иная модель тренировалась на материалах западных СМИ, она может генерировать нарративы, воспроизводящие западноцентричный взгляд на мировые события. Это проявляется в репродукции определений глобальных проблем, нормализированных в западных гегемонистских дискурсах. ...

Добавлено: 21 апреля 2026 г.

Large Language Models as Political Actors: Cultural Bias and Epistemic Power

Seredkina E., Seletkova G., Михайловский А. В., Technology and Language 2026 Vol. 7 No. 1 P. 63–79

Быстрое распространение больших языковых моделей (Large Language Models, LLM) в социально и политически чувствительных сферах ставит вопрос о природе и источниках политической предвзятости в системах искусственного интеллекта. В большинстве исследований предвзятость рассматривается преимущественно как технический дефект, подлежащий устранению. Здесь предлагается более широкая философская и культурная интерпретация феномена, согласно которой предвзятость LLM является результатом встроенных эпистемических ...

Добавлено: 1 апреля 2026 г.

Granular computing-based deep learning for text classification

Бехзадидуст Р., Mahan F., Izadkhah H., Information Sciences 2024 Vol. 652 Article 119746

Добавлено: 12 марта 2026 г.

Mechanistic Permutability: Match Features Across Layers

Balagansky N., Максимов Я. В., Gavrilov D., , in: Proceedings of the 13th International Conference on Learning Representations (ICLR 2025).: ICLR, 2025. P. 57940–57957.

Добавлено: 25 февраля 2026 г.

When Punctuation Matters: A Large-Scale Comparison of Prompt Robustness Methods for LLMs

Seleznyov M., Чайчук М. В., Ershov G. и др., , in: Findings of the Association for Computational Linguistics: EMNLP 2025.: Association for Computational Linguistics, 2025. P. 20370–20385.

Добавлено: 3 февраля 2026 г.

30th International Conference on Applications of Natural Language to Information Systems, NLDB 2025, Kanazawa, Japan, July 4–6, 2025, Proceedings, Part I. Natural Language Processing and Information Systems. (LNCS, volume 15836)

Springer, 2025.

Добавлено: 3 февраля 2026 г.

Measuring Chemical LLM robustness to molecular representations: a SMILES variation-based framework

Ganeeva V., Khrabrov K., Kadurin A. и др., Journal of Cheminformatics 2025 No. 17 Article 164

Добавлено: 3 февраля 2026 г.

Proceedings of the International Conference on Recent Advances in Natural Language Processing (RANLP 2021)

INCOMA Ltd, 2021.

Добавлено: 28 января 2026 г.

Многоаспектная оценка методов адаптации токенизатора для больших языковых моделей на русском языке

Андрющенко Г. Д., Годунова М. Э., Иванов В. В. и др., Доклады Российской академии наук. Математика, информатика, процессы управления (ранее - Доклады Академии Наук. Математика) 2025 Т. 527 С. 320–331

Большие языковые модели (Large language model, LLM), предобученные на корпусах, состоящих из большинства текстов на английском языке, показывают более низкое качество и работают неоптимально на других естественных языках. Адаптация словаря LLM обеспечивает ресурсоэффективный способ повышения качества предобученной модели. Ранее предложенные методы адаптации фокусировались на метриках качества (точности) и размера (фертильности), игнорируя другие аспекты, такие как ...

Добавлено: 15 января 2026 г.

Aspect-Based Sentiment Analysis Using Large Language Models on Museum Visitor Reviews

Anastasia V. Kolmogorova, Elizaveta R. Kulikova, Vladislav V. Lobanov, Supercomputing Frontiers and Innovations 2025 Vol. 12 No. 3 P. 121–140

Добавлено: 30 ноября 2025 г.

Применение больших языковых моделей для анализа ценностно-патриотического дискурса русскоязычных пользователей

Балакина Ю. В., Григорьева М. В., Соколова Е. Н., Вестник Российского фонда фундаментальных исследований. Гуманитарные и общественные науки 2025 Т. 123 № 4 С. 56–69

Статья рассматривает возможности применения больших языковых моделей (LLM) для автоматизированного анализа ценностно-патриотического дискурса русскоязычных пользователей социальных медиа. На материале корпуса сообщений из VK, «Одноклассников» и Telegram (2023–2025 гг.) исследуется, насколько результаты автоматической кодировки совпадают с экспертной разметкой по специально разработанной категориальной схеме. Кодбук включает восемь измерений: базовые ценности по Ш. Шварцу, две оси Р. Инглхарта ...

Добавлено: 26 ноября 2025 г.

Empaths at SemEval-2025 Task 11: Retrieval-Augmented Approach to Perceived Emotions Prediction

Morozov L., Mogilevskii A., Ширнин А. А., , in: Proceedings of the 19th International Workshop on Semantic Evaluation (SemEval-2025).: Association for Computational Linguistics, 2025. P. 2000–2007.

Добавлено: 17 ноября 2025 г.

Proceedings of the 19th International Workshop on Semantic Evaluation (SemEval-2025)

Association for Computational Linguistics, 2025.

Добавлено: 17 ноября 2025 г.