На конференции Practical ML Conf была представлена новейшая версия нашей мощной языковой модели YandexGPT 2. С восторгом сообщаем, что она уже успешно функционирует в навыке Алисы под названием «Давай придумаем». Новая модель помогает пользователю структурировать информацию, генерировать идеи, создавать тексты и многое другое.
Важно отметить, что эта версия модели превосходит прежнюю в 67% случаев и в ряде сценариев оказывается даже более эффективной. Все это стало возможным благодаря улучшениям, внесенным на всех этапах обучения модели, однако ключевым фактором является новый метод предварительного обучения (pretrain). Позвольте вкратце рассказать о том, какие изменения произошли в процессе обучения модели, в каких сценариях они оказали наибольший эффект и какие планы на будущее мы намечаем.
В каких сценариях новая модель особенно полезна? Давайте начнем с объяснения того, как модели сравниваются друг с другом. Одна и та же модель может быть сильной в одном сценарии, но проигрывать в другом.
Как же определить, умнее ли модель в целом? Мы решили решить эту задачу следующим образом: мы собрали 500 максимально разных примеров задач пользователей. Затем мы предоставили эти примеры как старой, так и новой модели и подсчитали, сколько раз ответ новой модели был лучше, чем ответ старой. Если новая модель превосходила старую модель в большем числе задач, то мы считаем ее умнее. YandexGPT 2 обошла предыдущую версию модели в 67% случаев.
Таким образом, можно с уверенностью сказать, что новая модель демонстрирует более высокий уровень интеллекта и производительности.
На конкретных срезах сценариев, которые популярны у пользователей, новая модель также проявляет свою эффективность. Чтобы получить более точное представление о ее поведении в разных сценариях, мы разбили те же 500 примеров задач на отдельные группы, соответствующие различным сценариям, и измерили, каким образом изменилось качество модели в каждой из этих групп. Это позволяет нам лучше понять, где новая модель проявляет наилучшие результаты.
Анализ результатов показал, что новая модель демонстрирует значительное улучшение качества во многих популярных сценариях. Например, в сценариях связанных с генерацией текста и идеями она показала значительное повышение точности и превосходство по сравнению со старой моделью. Кроме того, в сценариях, связанных с структурированием информации, новая модель также продемонстрировала значительное улучшение.
Эти результаты подтверждают, что новая модель YandexGPT 2 имеет преимущества во многих популярных сценариях использования. Она способна лучше обрабатывать запросы пользователей, структурировать информацию и генерировать качественный контент. Это делает модель еще более полезной в различных применениях, от ответов на вопросы пользователей до создания текстов и идей. Мы продолжаем работать над улучшением модели и исследованием ее применимости в различных сценариях, чтобы предоставить пользователям еще более высокий уровень качества и удовлетворить их потребности в обмене информацией и творчестве.
Приведены примеры различных сценариев использования, в каждом из которых достигается определенный уровень успешной обработки текста.
Изменения в процессе обучения новой модели можно разделить на два основных этапа: претрейн (pretrain) и файнтюн (finetune). На первом этапе нейронная сеть расширяет свою эрудицию и улучшает свои общие знания о мире, языке и различных задачах, в то время как на втором этапе она учится выполнять конкретные запросы, соблюдать формат и стиль ответов. В предыдущей статье о запуске YaGPT в Алисе уже было упомянуто о этих этапах. Главное, что следует помнить, это то, что улучшение одного этапа не решит проблемы, связанные с другим этапом.
В предыдущей публикации о запуске первой модели мы сфокусировались на процессе сбора данных для файнтюна. Сейчас я более подробно расскажу о этапе претрейна.
Задача претрейна состоит в том, чтобы включить в модель все полезные знания, доступные в интернете. Однако самым сложным в этом процессе является выбор наиболее полезных данных для обучения из бесконечного потока информации. Как определить, улучшается ли датасет после каждой новой добавленной порции данных? Полное переобучение большой модели на каждое изменение датасета и измерение ее качества являются крайне затратными и времязатратными процессами. Это замедляло бы наш прогресс до скорости улитки. Поэтому мы выбрали более реалистичный подход: мы накапливаем изменения в датасете и только после этого проводим переобучение модели. Однако существует риск, что выбранное направление изменений может неправильно развиваться и привести к снижению качества модели. Ранее мы вручную следили за изменениями и даже разработали инструменты для ручного поиска информации в процессе претрейна. Сбор датасета был подобен искусству. С ростом датасета становилось все сложнее вручную находить проблемы. Поэтому мы выбрали другой подход.
Мы провели проверку множества идей и выбрали те, которые действительно приносят пользу в развитии нашей модели.
1. Мы обучили классификатор для идентификации некачественного текста. Теперь наша модель способна распознавать тексты с ошибками в кодировке, проблемами в HTML-разметке, повторяющимися предложениями и другими подобными проблемами.
2. Мы также обучили классификатор для определения полезного текста. Наша модель теперь может отличать тексты, которые могут выглядеть хорошо, но не несут реальной пользы для пользователей. Мы определяем полезность текста на основе того, содержит ли он ответы на реальные запросы пользователей Яндекс Поиска.
3. Мы активно работали над увеличением доли текстов с высокой цитируемостью. Это помогает нам улучшить качество информации, которую предоставляем пользователям.
4. Мы значительно улучшили алгоритм дедупликации, что позволило сократить количество повторяющихся текстов до уровня меньше 0,5%. Это повышает качество и разнообразие контента, который предоставляется пользователям.
5. Мы разработали отдельный инструмент для оценки «фактовой полноты». Мы взяли реальные фактовые запросы из Яндекс Поиска и измерили долю таких запросов, на которые наша модель может дать ответ с использованием претрейна. Мы смогли увеличить эту долю с 70% до 80%, что является значительным улучшением.
Все эти изменения способствуют улучшению качества модели и обогащению предоставляемой информации для пользователей. Мы продолжаем исследования и работу над различными направлениями, чтобы еще больше повысить полезность и точность нашей модели.
Новая модель уже доступна в навыке «Давай придумаем» в голосовом помощнике Алиса. Вы можете использовать ее на устройствах Яндекс Станция, телевизорах с функцией Алисы, в приложении Яндекс, Яндекс Браузере, на странице с результатами поиска и на ya.ru. Кроме того, в Поиске теперь можно развернуть окно чата с нейросетью на весь экран для более удобной работы.
Что касается будущих планов, мы продолжим повышать качество датасетов для претрейна и файнтюна, так как по-прежнему видим положительный эффект от использования высококачественных обучающих примеров. Мы также работаем над внедрением RLHF (Reinforcement Learning from Human Feedback), однако этот этап еще предстоит. Конечно же, мы будем продолжать интегрировать модель YaGPT в различные сервисы Яндекса, но только там, где это будет действительно полезно и выгодно для пользователей. Продолжаем развиваться и стремиться сделать использование нашей модели максимально полезным и удобным для всех пользователей.
Каталог нейросетей Ailib. Вся информация взята из открытых источников.
Реклама и размещение: [email protected] или t.me/fozzepe