?
LLM-Microscope: Uncovering the Hidden Role of Punctuation in Context Memory of Transformers
Мы предлагаем методы количественной оценки того, как большие языковые модели (LLM) кодируют и хранят контекстную информацию, и показываем, что токены, обычно считающиеся второстепенными (например, детерминативы и знаки препинания), на деле несут неожиданно высокий объём контекста. В частности, удаление таких токенов — особенно стоп-слов, артиклей и запятых — стабильно ухудшает качество на MMLU и BABILong-4k, даже когда удаляются лишь кажущиеся нерелевантными токены. Наш анализ также выявляет сильную связь между «контекстуализированностью» и линейностью, где линейность измеряет, насколько хорошо переход от представлений одного слоя к следующему можно аппроксимировать одной линейной отображающей матрицей. Эти результаты подчёркивают скрытую важность «заполняющих» токенов для поддержания контекста. Для дальнейшего исследования мы представляем LLM-Microscope — открытый инструментарий, который оценивает нелинейность на уровне токенов, измеряет контекстную память, визуализирует вклад промежуточных слоёв (с помощью адаптированного Logit Lens) и определяет внутреннюю размерность представлений. Этот набор инструментов демонстрирует, что на первый взгляд тривиальные токены могут быть критически важны для понимания дальнодействующих зависимостей.