Во время конференции «Путешествие в мир искусственного интеллекта» (AI Journey) старший вице-президент, СТО и руководитель блока «Технологии» в Сбербанке, Андрей Белевцев, объявил о работе разработчиков Сбера над созданием новой версии сервиса GigaChat. Эта версия будет основана на одной из самых передовых моделей для русского языка, содержащей 29 миллиардов параметров.
По его словам, благодаря новой модели LLM, которая будет использоваться в следующей версии системы искусственного интеллекта GigaChat, сервис будет иметь такие же возможности, как у популярных зарубежных решений.
«Обучение моделей, на которых основан GigaChat, является масштабным и сложным вычислительным проектом, с которым мы раньше не сталкивались. Общее количество вычислительных операций почти в 6 раз превышает количество операций, выполненных при обучении модели ruGPT-3 с 13 миллиардами параметров в 2021 году», — сообщил Белевцев.
Он указал, что для GigaChat был создан и постоянно развивается уникальный набор данных, над которым работает большое количество сотрудников Сбера, что помогает улучшить качество ответов в различных областях.
«Благодаря усилиям этих специалистов, с каждым новым релизом GigaChat пользователи получают максимальную пользу от сервиса при решении своих задач», — отметил высокопоставленный руководитель компании.
В Сбере подчеркнули, что благодаря новой модели LLM GigaChat лучше следует инструкциям и способен выполнять более сложные задания. Качество суммаризации, рерайтинга и редактирования текстов, а также ответов на различные вопросы значительно улучшилось. Команда провела сравнение ответов новой и предыдущей моделей и зафиксировала общий прирост качества на 23%. Важно отметить, что новая модель справляется с фактологией на 25% лучше, чем предыдущая версия.
Для достижения таких результатов было проведено множество экспериментов с целью улучшения модели и повышения эффективности ее обучения. В частности, был использован фреймворк, позволяющий обучать большие языковые модели с распределением весов нейросети по видеокартам, что позволило сократить использование памяти.
По результатам внутренней оценки в бенчмарке MMLU (Massive Multitask Language Understanding) новая модель GigaChat с 29 миллиардами параметров превосходит самый популярный открытый аналог LLaMA 2 34B.
Бизнес-клиенты Сбера в скором времени получат доступ к API новой модели для реализации своих собственных решений, а участники академического сообщества смогут использовать ее для проведения исследований.
Восьмая международная конференция Сбера «Путешествие в мир искусственного интеллекта» (AI Journey) началась 22 ноября и продлится до 24 ноября.
Каталог нейросетей Ailib. Вся информация взята из открытых источников.
Реклама и размещение: [email protected] или t.me/fozzepe