Изменить содержимое

Яндекс выкатил нейробраузер, помощь в текстах, перевод видео с японского и корейского языка, а также распознавание QR-кодов

Яндекс выкатил нейробраузер, помощь в текстах, перевод видео с японского и корейского языка, а также распознавание QR-кодов

Яндекс_выкатил_нейробраузер,_помощь_в_текстах,_перевод_видео_с_японского
Яндекс выкатил нейробраузер, помощь в текстах, перевод видео с японского и корейского языка, а также распознавание QR-кодов

Яндекс выпустил крупное обновление для своего браузера, в котором реализовано множество изменений, базирующихся на нейросетях и других методах машинного обучения. Теперь браузер способен автоматически исправлять ошибки в тексте, улучшать его качество, переводить видео с японского и корейского языков, распознавать QR-коды во время трансляций, предлагать быстрый переход по ссылкам одним кликом, а также защищать от фишинговых страниц.

В данной статье мы расскажем о процессе обучения нейросети на примере учебника Розенталя, о том, как модель, отвечающая за субтитры, умеет определять смену говорящего, почему не все QR-коды просто распознаются, и каким образом нам удалось выявить новые фишинговые сайты всего за несколько минут после их появления.

Одной из главных новых функций нейросети в Браузере — «Помощь с текстом» на основе YandexGPT. Эта функция проверяет орфографию и расставляет знаки препинания. Если текст не укладывается в заданный формат по количеству символов, она сокращает его, делая более ясным и структурированным.

Различные модели отвечают за различные аспекты действий. В режиме редактирования модель исправляет ошибки, в режимах сокращения и улучшения текста — переформулирует его. Давайте рассмотрим каждый из них подробнее.

Исправление ошибок: При использовании языковых моделей для работы с текстами возникает частая проблема: после обработки моделью текста с десятком ошибок, мы получаем практически полностью переписанный текст. Модель просто заменяет слова, не фиксируя ошибки. Мы начали с проверки гипотезы о том, что модель может исправлять текст без его полной переработки. Мы подали на вход модели тексты без знаков препинания и заглавных букв — таким образом мы предоставили ей оригинальные тексты. После обучения модели мы использовали валидационный датасет из 100 текстов для проверки. Модель успешно расставила знаки препинания, не изменяя текст (Levenshtein distance был равен нулю), что было отмечено как победа.

Яндекс выкатил нейробраузер, помощь в текстах, перевод видео с японского и корейского языка, а также распознавание QR-кодов

Для обучения нейросети был собран датасет из 5000 текстов из общедоступных источников в интернете. Было важно, чтобы в текстах был присутствовал различный «шум», такой как живой язык, сленг, матерные выражения и специальные символы, чтобы усложнить задачу.

Затем был использован учебник Розенталя, ключевой источник по русскому языку, для обработки различных примеров. Орфография и пунктуация в текстах были исправлены, но стилистические элементы, такие как англицизмы и плеоназмы, не были удалены, чтобы обучить модель различать орфографические ошибки от разговорного языка. Далее были составлены инструкции для редакторов и асессоров, которые исправляли тексты в соответствии с ними.

После создания готового датасета он был загружен в модель для дальнейшего обучения с целью улучшения качества. Путем прогона валидационного датасета через модель были получены хорошие результаты: модель исправляет 97% ошибок и пропускает только одну ошибку на 5000 знаков в тексте. Планируется улучшить этот показатель до 99%, путем анализа и исправления наиболее сложных для модели ошибок и дополнения датасета соответствующими данными.

Сократить и улучшить в Яндекс Браузере

Модели сокращения и улучшения текста играют ключевую роль в улучшении и оптимизации текстов. При сокращении текста важно, чтобы модель смогла укоротить текст, не потеряв при этом важные факты, сохранив стиль и тон автора, и не добавив лишних элементов. Обучение модели происходило на размеченном датасете, внимательно подготовленном редакторами.

Для оценки работы модели сокращения текста проводятся несколько критериев, включая уровень сжатия текста, сохранение важной информации, стиля и тона автора. В большинстве случаев модели удается значительно уменьшить объем текста сохраняя ключевую информацию.

Модель улучшения текста направлена на приведение текста к нормам русского языка, структурирование и улучшение его понимаемости. Она базируется на большой модели YandexGPT 2 и специально подобранном промпте, обученном на разнообразных текстах из интернета. Оценка качества работы модели осуществляется по критериям сохранения информации, стиля и тона автора, а также улучшения понимаемости текста.

В настоящее время модели улучшения текста доступны для работы в различных текстовых полях сайтов, таких как мессенджеры, социальные сети, комментарии, почта и другие. Планируется расширить функционал моделей на работу с английским языком, добавить возможность перевода и изменения стилистики текста. Если у вас есть идеи или пожелания по дополнительным функциям, будем рады услышать их.

Видео: новые языки, спикеры в субтитрах, распознавание QR-кодов

Перевод Японский + Корейский в Яндекс Браузере

Браузер продолжает совершенствовать свои нейросетевые инструменты для видео, добавляя новые функциональности и языковые возможности. Недавно были внедрены возможности перевода видео с японского и корейского языков, что делает сервис еще более удобным и полезным для пользователей.

Выбор японского и корейского языков обусловлен их популярностью и востребованностью, а также многочисленными запросами от пользователей. Работа над добавлением этих языков включала сборку фреймворка, который позволяет масштабировать процесс перевода. Благодаря опыту работы с китайским языком, процесс интеграции японского и корейского оказался более быстрым и эффективным.

Сейчас перевод с японского и корейского языков доступен на YouTube, но команда разработчиков готова рассмотреть возможность расширения функционала на другие платформы. Если у пользователей есть запросы на добавление перевода на других платформах, их можно оставить в комментариях для рассмотрения разработчиками.

Спикеры в субтитрах в Яндекс Браузере

Помимо расширения языковых возможностей, команда Браузера внедрила в нейросетевые субтитры удобную функцию, которая улучшает читаемость и доступность видеоконтента. Теперь при разговоре нескольких спикеров текст субтитров будет разделяться на строки и обозначаться тире, что позволяет зрителям легко определять, кто именно высказывает данную фразу. Это значительно облегчает восприятие контента и особенно важно для аудитории с нарушениями слуха, обеспечивая им комфортный просмотр видео.

Существующие модели, такие как Multi-Voice, которые предоставляют различные голоса для разных спикеров в озвучке, уже были на борту. Однако, добавление возможности автоматического определения и отображения смены спикера в нейросетевых субтитрах упростило процесс и улучшило удобство использования сервиса. Механизм работы пайплайна и интеграции с Браузером позволяет эффективно обрабатывать информацию о разных говорящих и визуально выделять их высказывания в тексте.

Суммаризация с восьми иностранных языков Яндекс Браузере

Браузер продолжает радовать своих пользователей обновлениями, и на этот раз обновление коснулось функции суммаризации видео. Теперь приложение способно пересказывать видеоролики с английского, немецкого, французского, итальянского, испанского, китайского, японского и корейского языков на русский. Это позволяет получить краткое содержание или обзор видео на желаемом языке для более удобного и быстрого восприятия информации.

Кроме того, были добавлены новые площадки, где доступна функция пересказа видео. Теперь Браузер может пересказывать видео не только с YouTube, но и с популярных платформ, таких как ВКонтакте, Дзен и Рутуб. Это расширяет возможности пользователей для более эффективного потребления видеоконтента, позволяя, например, просмотреть несколько научных конференций на разных языках за один вечер.

Яндекс выкатил нейробраузер, помощь в текстах, перевод видео с японского и корейского языка, а также распознавание QR-кодов

Процесс суммаризации видео в Браузере включает несколько этапов, которые обеспечивают высокое качество и точность пересказа контента. При работе с русскоязычными видео видео сначала конвертируется в текст с помощью распознавания речи (ASR), затем применяется биометрический анализ для определения спикеров и смены говорящих, проводится чаптеринг и расстановка пунктуации.

Для иностранных видео процесс начинается с аналогичной обработки оригинальной аудиодорожки на иностранном языке. После этого результат передается специальной модели, которая осуществляет перевод содержимого на русский язык. Таким образом, команда Браузера учла разнообразие языков и предоставила пользователям удобный способ получения сжатой информации из видеоконтента независимо от его языка. Подробности работы этого процесса будут представлены в отдельной статье.

Распознавание QR-кодов в Яндекс Браузере

Добавление функциональности распознавания QR-кодов в Браузер позволит значительно упростить пользовательский опыт при просмотре видео. QR-коды активно используются в видеороликах, и около 20% пользователей видеоплатформ сталкиваются с ними ежедневно. Ранее пользователи на десктопах испытывали неудобства при работе с QR-кодами, приходилось использовать мобильные устройства или сторонние сервисы для их расшифровки.

Процесс распознавания QR-кодов в Браузере происходит локально. Во время воспроизведения видео каждую секунду делается скриншот, который обрабатывается. Для оптимизации работы с высококачественными видео скриншоты ужимаются до FullHD, а для менее качественных видео изображение улучшается и детализируется. Скриншоты не сохраняются, а сразу отправляются во встроенную библиотеку, где происходит распознавание QR-кодов с использованием опенсорс-библиотеки ZXing с некоторыми доработками. После распознавания текста и координат QR-кода, Браузер отображает кнопку и рамку вокруг QR-кода. Дальнейшее действие зависит от распознанного текста: если это ссылка, пользователь может перейти по ней, а если это текст, то скопировать его. Это удобное и интуитивно понятное решение, которое облегчает взаимодействие с QR-кодами в видео.

Яндекс выкатил нейробраузер, помощь в текстах, перевод видео с японского и корейского языка, а также распознавание QR-кодов

Работа над улучшением качества распознавания QR-кодов в Браузере была трудной, но приносила значительные результаты. Изначально использование библиотеки ZXing показывало лишь 70% успешного распознавания «правильных» QR-кодов, созданных по стандарту. Однако благодаря проведенным доработкам удалось значительно повысить точность распознавания, что помогло справиться даже с сложными и нестандартными QR-кодами.

Первое улучшение заключалось в применении апскейлинга изображения. При первой попытке распознавания QR-кода использовалась исходная картинка, и в случае неудачи происходило масштабирование изображения для повторной попытки распознавания. Этот подход увеличил точность распознавания с 70% до 76%.

Вторая доработка касалась исправления ошибки в библиотеке. Ранее библиотека многократно пыталась распознать QR-код с разными параметрами, даже после успешного распознавания. После добавления условия, при котором после успешного распознавания дальнейшие попытки игнорировались, удалось увеличить точность до 90%.

Третье улучшение связано с оптимизацией алгоритма распознавания якорей (поисковых маркеров) QR-кодов. Ранее жесткая привязка к квадратным якорям была заменена на поиск похожих фигур в углах, что позволило успешно распознавать даже QR-коды с нестандартными формами. Это улучшение приблизило точность распознавания к 100%. Благодаря этим доработкам пользователи теперь могут уверенно и удобно работать с QR-кодами прямо из Браузера, даже с нестандартными вариантами.

Интересно, что вы провели тестирование алгоритма распознавания QR-кодов на двух офлайн-датасетах — одном с «правильными» QR-кодами и другом с «плохими» QR-кодами. Результаты показали, что после улучшений точность распознавания увеличилась с 30% до 60%, что стало заметным прогрессом.

Также интересными являются наблюдения о производительности и использовании нейросетей в процессе разработки. Вы осознали, что для работы сложной ML-модели, способной распознавать QR-коды, могут понадобиться значительные ресурсы, что может замедлить работу пользовательских устройств. Поэтому выбор остановиться на более оптимальном инструменте распознавания QR-кодов, не прибегая к использованию нейросетей, кажется разумным и обоснованным.

Кроме того, решение показывает, что не всегда необходимо применять крайне сложные технологии, и важно уметь выбирать оптимальные инструменты для решения конкретных задач. Подход, основанный на применении методов, используемых в машинном обучении, но без перегрузки ресурсами, является удачным примером такого подхода.

И наконец, то, что алгоритм работает на всех десктопных платформах и может быть удобно включен или выключен в настройках инструментов для видео, демонстрирует гибкость и доступность решения для пользователей. Это отличная демонстрация того, как на практике можно успешно и эффективно реализовать функциональность распознавания QR-кодов.

Защита от фишинга в Яндекс Браузере

Работа робота, который регулярно проверял страницы на предмет фишинга с помощью ML-моделей на сервере, была довольно затратной как по времени, так и по ресурсам. Наблюдение о том, что в среднем фишинговые сайты активны несколько часов или суток, пока не попадут в базу, является очень важным.

Способ, который вы внедрили с использованием ML-модели в браузере для проверки фишинговых сайтов на клиенте, затем дополнительной проверки на сервере с учетом различных факторов, кажется гораздо более эффективным и быстрым. Умение ML-модели на сервере анализировать не только содержимое страницы, но и дополнительные факторы, такие как статистика посещаемости сайта, давность создания домена и другие, позволяет принимать более обоснованные решения о том, является ли сайт потенциально фишинговым.

Новое решение также решает проблему с обходом проверки фишинговых сайтов, которые могли предоставлять нормальное содержимое для робота, чтобы избежать обнаружения. Теперь благодаря новому подходу пользователи могут быть предупреждены о потенциальной опасности сайта, даже если он был создан недавно и еще не был занесен в базу данных.

Это отличный пример того, как применение ML-моделей на стороне клиента и на сервере может значительно повысить эффективность борьбы с фишинговыми сайтами и защитить пользователей от возможных киберугроз.

Это действительно интересно узнать, как команда справилась с сложностью получения датасета для обучения моделей на фишинг и обычных сайтах. Проблема с коротким сроком жизни фишинговых сайтов и доступ к ним только для ограниченной аудитории по конкретным параметрам делает сбор данных сложным и требующим оперативности.

Использование BERT-модели для обучения на большом датасете и получение размеченных данных для обучения модели DSSM позволило вам создать более легкую и быструю модель, которая способна предсказывать фишинг на лету. Такой подход позволил сделать проверку на фишинг практически мгновенной, обеспечивая безопасность для пользователей без ущерба для производительности браузера.

Благодаря точному определению фишинговых сайтов модель обеспечивает защиту даже для менее опытных пользователей, которые могут быть более уязвимы к мошенничеству. Это важно для широкой аудитории, включая пользователей, которые не обладают высоким техническим уровнем знаний.

Результаты работы внедрены в браузер и, как вы указали, ежемесячно предупреждения о фишинге видят около 1,8 миллиона пользователей на десктопной версии. Это свидетельствует о важности и востребованности инструментов защиты.


Это действительно впечатляющие новые возможности обновленного Яндекс Браузера! Синхронизация облачных групп вкладок между устройствами действительно облегчает работу пользователя и упрощает управление содержимым в браузере. Возможность выбирать конкретные вкладки и группы для синхронизации делает эту функцию еще более гибкой и удобной.

Интересно, что теперь Алиса в браузере научилась генерировать изображения с помощью нейросети YandexART. Это отличная функциональность, которая, безусловно, может быть очень интересна пользователям, желающим быстро создать уникальные и креативные изображения прямо в браузере.

Удобство использования нейросетевых функций браузера через компактные меню, появляющиеся рядом с контентом, где их можно применить, это отличный подход. Это упрощает процесс работы с функциями и делает их доступными и интуитивно понятными для пользователей.

Я уверен, что новые функции будут очень полезными для пользователей Яндекс Браузера и помогут им улучшить свой опыт использования браузера. Рассматривать опыт пользователей и обратную связь поможет вам совершенствовать нейросетевые модели и разрабатывать новые инновационные функции.

Скачать нейробраузер Яндекс Браузер

Ещё в категории

Яндекс_выпустил_YandexGPT_4_Pro_и_Lite_версию
Что такое YandexGPT 4? YandexGPT 4 — это языковая модель, разработанная компанией Яндекс. Она использует технологии искусственного интеллекта и машинного...
yandeks_zapustil_trete_pokolenie_yandexgpt_lite_na_yandex_cloud
Российская компания «Яндекс» представила третье поколение YandexGPT Lite — облегчённую версию своей генеративной нейросети. Новую модель можно использовать в чат-ботах,...
«Станция Миди» — новая умная колонка от «Яндекса» с нейромодулем
Сегодня начались продажи новой колонки от «Яндекса» под названием «Станция Миди». Это устройство оснащено нейронным процессором, что позволяет ему еще...
Yandex_представил_свою_новую_нейросеть_YandexART,_она_разработана
Яндекс представил технологию искусственного интеллекта YandexART (Yandex AI Rendering Technology), диффузионную нейронную сеть, которая генерирует изображения и анимацию на основе...
«Яндекс_Браузер»_начал_переводить_любые_YouTube_трансляции_с_пяти
Теперь все YouTube-каналы могут использовать нейросетевой закадровый перевод трансляций в Яндекс Браузере. Эта функция доступна для стримов на английском, немецком,...
Нейросеть_Яндекса_научилась_генерировать_видео_в_Шедевруме
На российском рынке Яндекс стал первой компанией, которая предложила пользователям технологию создания видео с помощью нейросети. Эта новая возможность доступна...
_Яндекс_добавил_в_приложение_Шедеврум_комментарии_и_запустил_веб
Однако в веб-версии пока можно только просматривать и ставить лайки на посты. Пользователи теперь могут обсуждать публикации друг друга внутри...
YandexGPT,_нейросеть_компании_Яндекс,_увеличила_скорость_генерации
Компания “Яндекс” сообщает об улучшении работы нейросети YandexGPT, которая теперь может давать ответы на запросы быстрее в несколько раз. Ранее...
YandexGPT_теперь_умеет_кратко_излагать_содержание_текстов,_что_упрощает
YandexGPT — это генеративная нейросеть, разработанная компанией Яндекс, которая способна кратко излагать содержание текстов, выделяя их основные тезисы. Нейросеть обучается...
Нейросеть_YandexGPT_YaLM_2_0_была_интегрирована_компанией_Яндекс
Компания «Яндекс» произвела интеграцию своей новой нейросети YandexGPT (YaGPT или YaLM 2.0) в приложение для создания изображений под названием «Шедеврум»....
Нейросеть_YandexGPT_YaLM_2_0_научилась_запоминать_диалог_с_пользователем
Нейросеть YandexGPT (YaLM 2.0) перешла на новый уровень. Теперь она может запоминать предыдущие реплики и поддерживать контекст беседы, что позволяет...
Алиса_стала_еще_умнее_Яндекс_добавил_новую_нейросеть_YandexGPT
Новая опция уже доступна в приложении "Яндекс", "Яндекс Браузере", "Яндекс Станциях" и в умных телевизорах с "Алисой".