—

SoundStorm: Google представила революционный инструмент искусственного интеллекта, способный воспроизводить голос в реальном времени

SoundStorm: Google представила революционный инструмент искусственного интеллекта, способный воспроизводить голос в реальном времени

Google

31.05.23

Компания Google представила свой последний прорыв в технологии искусственного интеллекта — SoundStorm, передовую модель для эффективного и неавторегрессивного генерирования аудио. Благодаря способности синтезировать диалоги с различными голосами, SoundStorm открывает новые возможности для таких приложений, как генерация аудиоконтента из письменного текста и создание реалистичных подкастов.

В отличие от своего предшественника AudioLM, SoundStorm использует новую архитектуру, которая генерирует аудио фрагментами по 30 секунд, что повышает эффективность. Используя двунаправленное внимание и параллельное декодирование на основе уверенности, модель создает высококачественный звук, значительно сокращая время генерации. На аппаратном обеспечении Google TPU-v4 SoundStorm может генерировать 30 секунд аудио всего за 0,5 секунды, что означает значительное улучшение скорости.

Для обучения SoundStorm использовался массивный набор данных из 100 000 часов диалогов, что обеспечило надежное понимание моделей разговорного языка. Модель достигает впечатляющей согласованности в голосовых и акустических условиях, сохраняя при этом качество звука, достигнутое AudioLM. Этот прорыв делает SoundStorm на два порядка быстрее своего предшественника, демонстрируя его потенциал для масштабируемой генерации звука.

Одной из ключевых возможностей SoundStorm является способность синтезировать естественные диалоги, используя этап текстово-семантического моделирования SPEAR-TTS. Предоставляя транскрипты с поворотами диктора и короткими голосовыми подсказками, пользователи могут управлять содержанием речи и голосами дикторов. Во время тестирования SoundStorm продемонстрировал способность синтезировать 30-секундные диалоговые сегменты всего за 2 секунды на одном TPU-v4, показав свою эффективность и универсальность.

При сравнении со стандартными базовыми моделями, звук, генерируемый SoundStorm, по качеству эквивалентен AudioLM и демонстрирует превосходную согласованность и акустическую целостность. Примечательно, что при необходимости предоставить образец речи, модель сохраняет голос диктора с удивительной точностью, что значительно повышает ее способность генерировать реалистичные диалоги.

Несмотря на выдающиеся возможности SoundStorm, очень важно распознать и решить возможные этические проблемы. Данные для обучения алгоритма могут быть необъективными в отношении акцентов и особенностей голоса. Способность имитировать голос может быть использована для выдачи себя за другого человека или для обхода биометрической идентификации. Google подчеркивает важность принятия мер защиты для предотвращения таких злоупотреблений и обеспечения возможности обнаружения созданных аудиозаписей с помощью специальных классификаторов.

Этические принципы ИИ компании Google определяют ее постоянные усилия по устранению потенциальных опасностей и ограничений. Организация осознает необходимость тщательного изучения обучающих данных и последствий для результатов работы моделей. Они также планируют изучить дополнительные подходы, такие как аудио водяные знаки, для обнаружения синтезированной речи, чтобы сделать использование этой технологии этичным.

SoundStorm — это большой шаг вперед в производстве аудио с помощью ИИ, обеспечивающий высококачественное и эффективное представление звука с помощью нейронных аудиокодеков. Google ожидает, что меньшие потребности SoundStorm в памяти и обработке данных сделают исследования в области генерации звука более доступными для широкого круга пользователей. Google по-прежнему стремится сохранить ответственную практику ИИ и обеспечить безопасное и ответственное использование SoundStorm и сопоставимых прорывов в этой области по мере развития технологии.

Ещё в категории Google

Google

16.05.24

Google представила Project Astra — инновационного ИИ-ассистента, обладающего способностью воспринимать и осмысливать окружающую среду

В рамках ежегодного мероприятия для разработчиков Google I/O, глава подразделения искусственного интеллекта DeepMind, Демис Хассабис, представил первый взгляд на то,...

Google

15.05.24

Google на конференции I/O 2024 анонсировали ряд громких новинок ИИ

На последнем мероприятии Google I/O 2024 представлены значительные новшества в области искусственного интеллекта, заслуживающие особого обзора. • В семейство открытых...

Google

18.01.24

Google анонсирует обновления ИИ для поиска и Gemini для нового S24 от Samsung

В рамках конференции Samsung Galaxy Unpacked компания Google анонсировала два крупных обновления поиска: Circle to Search и мультипоиск на основе...

Google

05.06.23

Google выпустила нейросеть StyleDrop, она может создавать изображения в точно заданном стиле

StyleDrop изучает стиль любого изображения и помогает генеративной модели искусственного интеллекта воссоздать его. Метод Google превосходит другие, такие как Dreambooth,...

Google

12.05.23

Google позволяет пользователям создавать музыку с помощью нейросети MusicLM

Google объявил о доступности для широкой публики своей нейросети MusicLM, которая позволяет создавать музыку на основе текстового описания. Система успешно...

Как Siri, Alexa и Google Assistant проиграли в гонке A.I.

Google Alexa

16.03.23

Как Siri, Alexa и Google Assistant проиграли в гонке A.I.

У виртуальных помощников было более десяти лет, чтобы стать незаменимыми. Но им мешали неуклюжий дизайн и ошибки в расчетах, что...

Google

13.03.23

Google стал на шаг ближе к созданию 1000-язычной модели искусственного интеллекта

Google разрабатывает всевозможные технологии ИИ, включая универсальную речевую модель, которая является частью попытки создать модель, способную понимать 1000 наиболее распространенных...