Генерация 4-секундного видео из текста. CogVideo является крупнейшим предварительно обученным трансформатором для генерации текста в видео в общем домене, который имеет 9,4 миллиарда параметров. CogVideo элегантно и эффективно настраивает предварительно обученную модель генерации текста в изображение (CogView2) для генерации текста в изображение и использует многокадровую иерархическую стратегию обучения.