Большая мультимодальная модель (принимающая изображения и текст на входе, выдающая текст на выходе), которая, хотя и уступает человеку во многих реальных сценариях, демонстрирует производительность на уровне человека в различных профессиональных и академических тестах. Можно записаться в лист ожидания API.