ChatGPT выходит за пределы текстового формата: новые модели OpenAI научились анализировать изображения

Компания OpenAI снова поражает своих пользователей: спустя всего два дня после презентации GPT-4.1, технологический гигант объявил о выпуске двух новых моделей — o3 и o4-mini. С сегодняшнего дня подписчики ChatGPT Plus уже имеют возможность испытать эти новинки, которые, по словам OpenAI, «открывают новую эру в возможностях искусственного интеллекта, предоставляя возможность мыслить через изображения».

Модель o3 позиционируется как самая современная разработка OpenAI в сфере рассуждений. Разработчики особо выделяют её «выдающиеся достижения» в задачах по программированию, математике и науке. В свою очередь, o4-mini является более экономичным вариантом, который, тем не менее, обладает высокой эффективностью при решении задач в тех же областях.

Однако наиболее примечательной особенностью o3 и o4-mini является их способность использовать и комбинировать все инструменты, доступные в ChatGPT, включая генерацию изображений. Впервые модели OpenAI могут не только воспринимать изображения, но и интерпретировать их, «размышлять» о них, что значительно расширяет возможности обработки визуальной информации. Пользователи могут загружать изображения – будь то некачественные фотографии досок, диаграмм или набросков – и новые модели смогут понять их содержание и даже адаптировать их в ходе рассуждений. Это открывает путь к решению сложных, многоэтапных задач и, по словам OpenAI, приближает к созданию действительно автономно действующих систем.


ChatGPT выходит за пределы текстового формата: новые модели OpenAI научились анализировать изображения
Иллюстрация: Reuters

«Сочетание передовых возможностей рассуждений с полным доступом к инструментам приводит к значительному улучшению производительности по академическим стандартам и в решении реальных задач, устанавливая новый стандарт как в области интеллекта, так и практической пользы», – заявили в OpenAI.

В дополнение к новым моделям, OpenAI также представила Codex CLI – нового агента для написания кода, аналогичного Claude Code. Данный инструмент изначально совместим с o3 и o4-mini, а вскоре получит поддержку и от GPT-4.1.

Этот анонс стал неожиданностью после заявления Сэма Альтмана в феврале о изменении направления развития компании. Тогда Альтман утверждал, что o3, представленная ещё в конце прошлого года, не будет выпущена как самостоятельный продукт. Однако в начале апреля планы изменились, и Альтман сообщил о выпуске o3 и o4-mini. В своем аккаунте в X он объяснил «смену планов» стремлением сделать GPT-5 «гораздо лучше, чем предполагалось изначально», а также трудностями в «гладкой интеграции всего» и стремлением обеспечить достаточные мощности для «беспрецедентного спроса». Таким образом, обещанное Альтманом в феврале упрощение, вероятно, будет отложено до выхода GPT-5, который, по его словам, стоит ожидать в «ближайшие несколько месяцев».

На текущий момент пользователи ChatGPT Plus, Pro и Team могут начать работу с o3 и o4-mini уже сегодня. В течение ближайших недель OpenAI также планирует запустить o3-pro – ещё более продвинутую версию флагманской модели рассуждений, которая будет доступна подписчикам Pro.

 

Источник: iXBT

Читайте также