?
Diffusion on language model embeddings for protein sequence generation
Cornell University
,
2025.
Дизайн белков требует глубокого понимания присущей сложности «белкового вселенной». Хотя многие работы ориентируются на условную генерацию или сосредоточены на отдельных семействах белков, базовая задача безусловной генерации остаётся недостаточно изученной и недооценённой. В этой работе мы исследуем именно этот ключевой аспект и представляем DiMA — модель, которая использует непрерывную диффузию по эмбеддингам, полученным из языковой модели для белков ESM-2, для генерации аминокислотных последовательностей. DiMA превосходит ведущие решения, включая авторегрессионные трансформеры и модели дискретной диффузии, и мы количественно показываем вклад проектных решений, обеспечивших её превосходную эффективность. Мы всесторонне оцениваем качество, разнообразие, сходство распределений и биологическую релевантность сгенерированных последовательностей, применяя множество метрик в разных режимах оценки. Наш подход стабильно порождает новые, разнообразные белковые последовательности, точно отражающие присущие белковому пространству структурное и функциональное разнообразие. Эта работа продвигает область дизайна белков вперёд и создаёт основу для условных моделей, предлагая надёжный каркас для масштабируемой и высококачественной генерации белковых последовательностей.
Научное направление:
Компьютерные науки
Приоритетные направления:
компьютерно-математическое
Язык:
русский