Изменить содержимое

Что нового в GPT-4 — от обработки фотографий до успешного прохождения тестов

Что нового в GPT-4 - от обработки фотографий до успешного прохождения тестов

Что нового в GPT-4 - от обработки фотографий до успешного прохождения тестов

Во вторник OpenAI анонсировала GPT-4, свою языковую модель ИИ нового поколения. Хотя компания предупредила, что различия между GPT-4 и ее предшественниками «малозаметны» в обычном разговоре, система все же обладает множеством новых возможностей. Например, она может обрабатывать изображения, и OpenAI утверждает, что она в целом лучше справляется с творческими задачами и решением проблем.

Оценить эти заявления непросто. Модели ИИ, в целом, чрезвычайно сложны, а системы, подобные GPT-4, разветвленные и многофункциональные, со скрытыми и пока неизвестными возможностями. Проверка фактов также представляет собой сложную задачу. Например, когда GPT-4 уверенно говорит вам, что создал новое химическое соединение, вы не узнаете, правда ли это, пока не спросите нескольких настоящих химиков. (Хотя это никогда не помешает некоторым громким заявлениям стать вирусными в Twitter). Как ясно сказано в техническом отчете OpenAI, самое большое ограничение GPT-4 в том, что он «галлюцинирует» информацию (придумывает ее) и часто «уверенно ошибается в своих предсказаниях».

Если отбросить эти предостережения, GPT-4 определенно интересен с технической точки зрения и уже интегрируется в крупные, основные продукты. Итак, чтобы понять, что нового вы узнали, мы собрали несколько примеров его подвигов и способностей из новостных изданий, Twitter и самой OpenAI, а также провели собственные тесты. Вот что мы знаем:

Он может обрабатывать изображения наряду с текстом
Как уже упоминалось выше, это самое большое практическое отличие GPT-4 от его предшественников. Система является мультимодальной, то есть она может анализировать как изображения, так и текст, в то время как GPT-3.5 мог обрабатывать только текст. Это означает, что GPT-4 может анализировать содержимое изображения и связывать эту информацию с письменным вопросом. (Хотя он не может генерировать изображения, как DALL-E, Midjourney или Stable Diffusion).

Что это означает на практике? New York Times рассказывает об одном демонстрационном примере, когда GPT-4 показывают внутреннее устройство холодильника и спрашивают, какие блюда можно приготовить из этих ингредиентов. Конечно, основываясь на изображении, GPT-4 придумывает несколько примеров, как соленых, так и сладких блюд. Однако стоит отметить, что для одного из этих предложений — обертывания — требуется ингредиент, которого, казалось бы, там нет: тортилья.

Что нового в GPT-4 - от обработки фотографий до успешного прохождения тестов
Обратите внимание на отсутствие меда, орехов или тортильи. Изображение: The New York Times

У этой функциональности есть множество других применений. В демонстрационном ролике, показанном OpenAI после анонса, компания показала, как GPT-4 может создать код для веб-сайта, например, на основе нарисованного от руки эскиза (видео встроено ниже). Кроме того, OpenAI работает со стартапом Be My Eyes, который использует распознавание объектов или людей-добровольцев для помощи людям с проблемами зрения, чтобы улучшить приложение компании с помощью GPT-4.

Подобная функциональность не является уникальной (множество приложений предлагают базовое распознавание объектов, например, приложение Magnifier от Apple), но OpenAI утверждает, что GPT-4 может «генерировать такой же уровень контекста и понимания, как и человек-доброволец» — объяснять окружающий пользователя мир, резюмировать загроможденные веб-страницы или отвечать на вопросы о том, что он «видит». Функциональность еще не запущена, но «будет в руках пользователей через несколько недель», говорит компания.

Другие компании, очевидно, тоже экспериментируют с возможностями GPT-4 по распознаванию изображений. Джордан Сингер, основатель компании Diagram, написал в Твиттере, что компания работает над добавлением этой технологии к своим инструментам ИИ-помощника дизайнера, чтобы добавить такие вещи, как чат-бот, который может комментировать дизайн, и инструмент, который может помочь генерировать дизайн.

И, как показано на изображениях ниже, GPT-4 также может объяснять смешные картинки:

Что нового в GPT-4 - от обработки фотографий до успешного прохождения тестов

Он лучше справляется с языковыми задачами
OpenAI утверждает, что GPT-4 лучше справляется с задачами, требующими творческого подхода или развитого мышления. Это утверждение трудно оценить, но оно кажется верным на основании некоторых тестов, которые мы видели и проводили (хотя различия с предшественниками пока не бросаются в глаза).

Во время демонстрации GPT-4 в компании, соучредитель OpenAI Грег Брокман попросил его кратко описать раздел сообщения в блоге, используя только слова, начинающиеся на «g» (позже он попросил его сделать то же самое, но с «a» и «q»). «У нас был успех для 4, но так и не получилось с 3.5», — сказал Брокман перед началом демонстрации. На видео, снятом OpenAI, GPT-4 отвечает вполне понятным предложением, в котором есть только одно слово, не начинающееся на букву «g», и делает это совершенно правильно после того, как Брокман просит его исправиться. GPT-3, тем временем, похоже, даже не пытался следовать подсказке.

Мы сами поиграли с этим, дав ChatGPT текст для обобщения, используя только слова, начинающиеся на «n», и сравнивая модели GPT-3.5 и 4. (В данном случае мы дали ему отрывки из объяснения Verge NFT). С первой попытки GPT-4 лучше справился с обобщением текста, но хуже придерживался подсказки.

Что нового в GPT-4 - от обработки фотографий до успешного прохождения тестов
Что нового в GPT-4 - от обработки фотографий до успешного прохождения тестов

Однако, когда мы попросили обе модели исправить свои ошибки, GPT-3.5 практически сдалась, тогда как GPT-4 выдала почти идеальный результат. В нем все еще присутствовало слово «на», но, справедливости ради, мы пропустили его, когда просили исправить ошибку.

Мы также попросили обе модели превратить нашу статью в рифмованное стихотворение. И хотя читать стихи о NFT очень больно, GPT-4 определенно справился с задачей лучше; его стихотворение показалось нам значительно более сложным, в то время как стихотворение GPT-3.5 было похоже на плохой фристайл.

Что нового в GPT-4 - от обработки фотографий до успешного прохождения тестов
Что нового в GPT-4 - от обработки фотографий до успешного прохождения тестов

Он может обрабатывать больше текста
Языковые модели ИИ всегда были ограничены объемом текста, который они могут хранить в своей краткосрочной памяти (то есть: текст, включенный как в вопрос пользователя, так и в ответ системы). Но OpenAI радикально расширила эти возможности для GPT-4. Теперь система может обрабатывать целые научные статьи и романы за один раз, что позволяет ей отвечать на более сложные вопросы и связывать больше деталей в каждом конкретном запросе.

Стоит отметить, что GPT-4 не имеет количества символов или слов как таковых, а измеряет свои входные и выходные данные в единицах, известных как «токены». Процесс токенизации довольно сложен, но вам нужно знать, что токен равен примерно четырем символам и что 75 слов обычно занимают около 100 токенов.

Максимальное количество маркеров, которое GPT-3.5-turbo может использовать в каждом конкретном запросе, составляет около 4 000, что соответствует чуть более 3 000 слов. GPT-4, для сравнения, может обработать около 32 000 лексем, что, по данным OpenAI, составляет около 25 000 слов. Компания говорит, что «все еще оптимизирует» для более длинных контекстов, но более высокий предел означает, что модель должна раскрыть те области применения, которые раньше было не так просто сделать.

Она может побеждать в тестах
Одним из наиболее значимых показателей в техническом отчете OpenAI по GPT-4 было его выступление на ряде стандартизированных тестов, включая BAR, LSAT, GRE, ряд модулей AP и — по неизвестной, но очень забавной причине — вводный, сертифицированный и продвинутый курсы сомелье, предлагаемые Court of Master Sommeliers (только теория).

Ниже вы можете увидеть сравнение результатов GPT-4 и GPT-3 по некоторым из этих тестов. Обратите внимание, что GPT-4 теперь довольно стабильно справляется с различными модулями AP, но все еще испытывает трудности с теми, которые требуют более творческого подхода (например, экзамены по английскому языку и английской литературе).

Что нового в GPT-4 - от обработки фотографий до успешного прохождения тестов

Это впечатляющий результат, особенно по сравнению с тем, чего могли бы достичь системы ИИ прошлых лет, но понимание этого достижения также требует некоторого контекста. Я думаю, что инженер и писатель Джошуа Леви лучше всего выразил это в Twitter, описав логическое заблуждение, на которое многие поддаются, глядя на эти результаты: «То, что программное обеспечение может пройти тест, разработанный для людей, не означает, что оно обладает теми же способностями, что и люди, которые проходят тот же тест».

Компьютерный ученый Мелани Митчелл подробно рассмотрела этот вопрос в блоге, где обсуждаются результаты ChatGPT на различных экзаменах. Как отмечает Митчелл, способность систем искусственного интеллекта проходить эти тесты зависит от их способности сохранять и воспроизводить определенные типы структурированных знаний. Это не обязательно означает, что эти системы могут обобщать на основе этих базовых данных. Другими словами: ИИ может стать окончательным примером обучения по тестам.

Он уже используется в основных продуктах
В рамках анонса GPT-4 OpenAI поделилась несколькими историями о том, как организации используют эту модель. Среди них — функция ИИ-репетитора, разрабатываемая Kahn Academy, которая призвана помочь студентам с курсовыми работами и подсказать учителям идеи для уроков, а также интеграция с Duolingo, которая обещает аналогичный интерактивный опыт обучения.

Предложение Duolingo называется Duolingo Max и добавляет две новые функции. Одна из них дает «простое объяснение», почему ваш ответ на упражнение был правильным или неправильным, и позволяет вам попросить другие примеры или разъяснения. Другая — режим «ролевой игры», позволяющий практиковаться в использовании языка в различных сценариях, например, заказать кофе по-французски или составить план похода по-испански. (Компания утверждает, что GPT-4 делает так, что «ни один разговор не будет абсолютно одинаковым».

Другие компании используют GPT-4 в смежных областях. Компания Intercom объявила сегодня о модернизации своего бота поддержки клиентов с помощью этой модели, обещая, что система будет подключаться к документам поддержки компании, чтобы отвечать на вопросы, а платежный процессор Stripe использует систему внутри компании, чтобы отвечать на вопросы сотрудников на основе своей технической документации.

Все это время она работала над новым Bing
После объявления OpenAI компания Microsoft подтвердила, что модель, используемая в чате Bing, на самом деле является GPT-4.

Это не такое уж сокрушительное откровение. Microsoft уже заявляла, что использует «крупноязычную модель OpenAI следующего поколения», но постеснялась назвать ее GPT-4, но все равно приятно это знать, и это означает, что мы можем использовать кое-что из того, что узнали из взаимодействия с Bing, чтобы подумать и о GPT-4.

И на этой ноте…

Он все еще совершает ошибки
Очевидно, что чат Bing не идеален. Бот пытался травить людей газом, совершал глупые ошибки и спрашивал нашего коллегу Шона Холлистера, хочет ли он посмотреть фурри-порно. Отчасти это связано с тем, как Microsoft реализовала GPT-4, но этот опыт дает некоторое представление о том, как чат-боты, построенные на этих языковых моделях, могут допускать ошибки.

На самом деле, мы уже видели, как GPT-4 допустил несколько ошибок в своих первых тестах. Например, в статье The New York Times систему просят объяснить, как произносятся распространенные испанские слова… и она почти все из них произносит неправильно. (Однако я спросил ее, как произносится слово «гринго», и ее объяснение, похоже, прошло проверку).

NYTimes публикует это руководство по испанскому произношению в качестве доказательства улучшений GPT-4 ……., но практически ничего из этого не является правильным! pic.twitter.com/lpGgTSv1E8

— Кристофер Гроб (@Confessant) 14 марта 2023 г.
Это не какая-то огромная ошибка, а напоминание о том, что все, кто участвует в создании и развертывании GPT-4 и других языковых моделей, уже знают: они ошибаются. Очень много. И любое внедрение, будь то в качестве репетитора, продавца или кодера, должно сопровождаться заметным предупреждением об этом.

Генеральный директор OpenAI Сэм Альтман говорил об этом в январе, когда его спросили о возможностях тогда еще не анонсированного GPT-4: «Люди умоляют разочароваться, и они будут разочарованы. Шумиха такая же, как… У нас нет настоящего искусственного интеллекта, и это вроде как то, чего от нас ждут».

Ну, AGI пока нет, но есть система, которая обладает более широкими возможностями, чем те, что мы имели раньше. Теперь мы ждем самого важного: увидеть, как именно и где она будет использоваться.

Ещё в категории

ии gpt
ChatGPT — это мощный инструмент на базе искусственного интеллекта, который может стать незаменимым помощником для программистов. Ниже представлены 25 способов,...
OpenAI GPT-4.5 System Card
Перевод полного отчета о системе GPT-4.5 на русский язык и выводы по нему. Развитие языковых моделей не стоит на месте:...
sam altman
OpenAI, лидер в области искусственного интеллекта, снова удивляет инновационными планами. В этой статье мы расскажем о последнем обновлении дорожной карты,...
laywer
Что такое ChatGPT и как он работает? ChatGPT – это программа на основе искусственного интеллекта. Она умеет отвечать на вопросы...
o3 mini
OpenAI официально запускает новую модель искусственного интеллекта o3-mini, которая станет доступной уже сегодня.
Обновление Stable Diffusion 3.5
Stability AI недавно представила три новых ControlNet-модели для Stable Diffusion 3.5 Large: Blur, Canny и Depth. Эти модели, доступные для...
Новую_модель_озвучки_текста_от_OpenAI_можно_попробовать_бесплатно
В отличие от GPT-4o, новая модель умеет выстраивать логические цепочки, последовательно анализировать задачи и делать выводы. Это значительно повысило точность...
Прощай 3.5! OpenAI представила модель GPT-4o mini
OpenAI представила свою новейшую модель искусственного интеллекта — GPT-4o mini, которая станет заменой GPT-3.5. Эта модель обещает значительно улучшить качество...
gpt4o_i_gpt_store_stali_dostupny_dlya_besplatnyh_polzovatelej
Теперь самую крутую модель OpenAI и кастомные GPT-боты может попробовать каждый! Ловите список крутейших ботов, созданных энтузиастами, на все случаи...
Новейшая бесплатная модель OpenAI - GPT-4o
OpenAI выпускает новую флагманскую модель генеративного ИИ под названием GPT-4o, которая будет «итеративно» внедряться в продукты компании для разработчиков и...
LLaMa_3_абсолютно_бесплатно_через_Perplexity_Labs
Знакомьтесь с LLaMa 3 — это текстовая нейросеть, умения которой не уступают GPT и даже превосходят его в некоторых аспектах....
8_способов_улучшить_промпт_для_ChatGPT
Попросите ChatGPT представиться в роли определенного специалиста, персонажа или представителя профессии. Пример: Возьми на себя роль юриста (поэта, психолога, критика,...