?
Smoothie: Smoothing Diffusion on Token Embeddings for Text Generation
Диффузионные модели достигли передовых результатов в генерации изображений, аудио и видео, однако их адаптация к тексту остаётся сложной из-за его дискретной природы. Ранее подходы либо применяют гауссовскую диффузию в непрерывных латентных пространствах, что наследует семантическую структуру, но затрудняет декодирование токенов, либо работают в пространстве категориального симплекса, что учитывает дискретность, но игнорирует семантические связи между токенами. В этой работе мы предлагаем Smoothing Diffusion on Token Embeddings (Smoothie) — новый диффузионный метод, объединяющий сильные стороны обоих подходов за счёт постепенного сглаживания эмбеддингов токенов на основе семантического сходства. Эта техника позволяет поэтапно удалять информацию при сохранении естественного процесса декодирования. Эксперименты на ряде задач последовательностной генерации (sequence-to-sequence) показывают, что Smoothie превосходит существующие диффузионные модели по качеству генерации. Кроме того, абляционные исследования демонстрируют, что предложенное диффузионное пространство даёт лучшие результаты, чем и стандартное пространство эмбеддингов, и категориальный симплекс. Код доступен по адресу: https://github.com/ashaba1in/smoothie
Научное направление:
Компьютерные науки
Приоритетные направления:
компьютерно-математическое
Язык:
английский