Компания Google представила свой последний прорыв в технологии искусственного интеллекта — SoundStorm, передовую модель для эффективного и неавторегрессивного генерирования аудио. Благодаря способности синтезировать диалоги с различными голосами, SoundStorm открывает новые возможности для таких приложений, как генерация аудиоконтента из письменного текста и создание реалистичных подкастов.
В отличие от своего предшественника AudioLM, SoundStorm использует новую архитектуру, которая генерирует аудио фрагментами по 30 секунд, что повышает эффективность. Используя двунаправленное внимание и параллельное декодирование на основе уверенности, модель создает высококачественный звук, значительно сокращая время генерации. На аппаратном обеспечении Google TPU-v4 SoundStorm может генерировать 30 секунд аудио всего за 0,5 секунды, что означает значительное улучшение скорости.
Для обучения SoundStorm использовался массивный набор данных из 100 000 часов диалогов, что обеспечило надежное понимание моделей разговорного языка. Модель достигает впечатляющей согласованности в голосовых и акустических условиях, сохраняя при этом качество звука, достигнутое AudioLM. Этот прорыв делает SoundStorm на два порядка быстрее своего предшественника, демонстрируя его потенциал для масштабируемой генерации звука.
Одной из ключевых возможностей SoundStorm является способность синтезировать естественные диалоги, используя этап текстово-семантического моделирования SPEAR-TTS. Предоставляя транскрипты с поворотами диктора и короткими голосовыми подсказками, пользователи могут управлять содержанием речи и голосами дикторов. Во время тестирования SoundStorm продемонстрировал способность синтезировать 30-секундные диалоговые сегменты всего за 2 секунды на одном TPU-v4, показав свою эффективность и универсальность.
При сравнении со стандартными базовыми моделями, звук, генерируемый SoundStorm, по качеству эквивалентен AudioLM и демонстрирует превосходную согласованность и акустическую целостность. Примечательно, что при необходимости предоставить образец речи, модель сохраняет голос диктора с удивительной точностью, что значительно повышает ее способность генерировать реалистичные диалоги.
Несмотря на выдающиеся возможности SoundStorm, очень важно распознать и решить возможные этические проблемы. Данные для обучения алгоритма могут быть необъективными в отношении акцентов и особенностей голоса. Способность имитировать голос может быть использована для выдачи себя за другого человека или для обхода биометрической идентификации. Google подчеркивает важность принятия мер защиты для предотвращения таких злоупотреблений и обеспечения возможности обнаружения созданных аудиозаписей с помощью специальных классификаторов.
Этические принципы ИИ компании Google определяют ее постоянные усилия по устранению потенциальных опасностей и ограничений. Организация осознает необходимость тщательного изучения обучающих данных и последствий для результатов работы моделей. Они также планируют изучить дополнительные подходы, такие как аудио водяные знаки, для обнаружения синтезированной речи, чтобы сделать использование этой технологии этичным.
SoundStorm — это большой шаг вперед в производстве аудио с помощью ИИ, обеспечивающий высококачественное и эффективное представление звука с помощью нейронных аудиокодеков. Google ожидает, что меньшие потребности SoundStorm в памяти и обработке данных сделают исследования в области генерации звука более доступными для широкого круга пользователей. Google по-прежнему стремится сохранить ответственную практику ИИ и обеспечить безопасное и ответственное использование SoundStorm и сопоставимых прорывов в этой области по мере развития технологии.
Каталог нейросетей Ailib. Вся информация взята из открытых источников.
Реклама и размещение: [email protected] или t.me/fozzepe