OpenAI выпускает новую флагманскую модель генеративного ИИ под названием GPT-4o, которая будет «итеративно» внедряться в продукты компании для разработчиков и потребителей в течение следующих нескольких недель.
Технический директор OpenAI Мури Мурати сказал, что GPT-4o обеспечивает интеллект «уровня GPT-4», но улучшает возможности GPT-4 по работе с текстом, зрением и аудио.
«GPT-4o учитывает особенности голоса, текста и зрения», — сказал Мурати на ключевой презентации в офисе OpenAI.
GPT-4, предыдущая ведущая модель OpenAI, обучалась на комбинации изображений и текста и могла анализировать изображения и текст, выполняя такие задачи, как извлечение текста из изображений или даже описание их содержания. Но GPT-4o добавляет к этому еще и речь.
GPT-4o значительно улучшает работу ChatGPT — ChatGPT — вирусного чатбота OpenAI, работающего на основе искусственного интеллекта. ChatGPT уже давно предлагает голосовой режим, который транскрибирует текст из ChatGPT с помощью модели преобразования текста в речь. GPT-4o улучшает этот режим, позволяя пользователям взаимодействовать с ChatGPT как с помощником.
Например, пользователи могут задать ChatGPT — на базе GPT-4o — вопрос и прервать ChatGPT во время ответа. По словам OpenAI, модель реагирует в режиме «реального времени» и даже может улавливать эмоции в голосе пользователя — и генерировать голос в «различных эмоциональных стилях».
Другие новости: OpenAI выпускает настольную версию ChatGPT с обновленным пользовательским интерфейсом.
«Мы знаем, что эти модели [становятся] все сложнее и сложнее, но мы хотим, чтобы опыт взаимодействия стал более естественным, легким и чтобы вы вообще не обращали внимания на пользовательский интерфейс, а просто сосредоточились на сотрудничестве с [GPT]», — говорит Мурати.
Каталог нейросетей Ailib. Вся информация взята из открытых источников.
Реклама и размещение: [email protected] или t.me/fozzepe