Новая модель OpenAI o1 умеет справляться со сложными задачами, требующими логических рассуждений

12 сентября компания OpenAI продемонстрировала свою новейшую крупную языковую модель OpenAI o1, разработанную с использованием метода «обучения с подкреплением» для выполнения сложных аналитических задач. Эта модель обладает способностью формировать длинные «цепочки мыслей» перед тем, как дать ответ, что делает её более продвинутой по сравнению с предшествующими версиями.

Модель OpenAI o1 занимает 89-й процентиль в соревновательном программировании (Codeforces) и входит в число 500 лучших «студентов» США в отборочном туре на американскую математическую олимпиаду (AIME). Кроме того, она демонстрирует уровень точности, который соответствует квалификации доктора философии в тесте задач по физике, биологии и химии (GPQA).

Компанией была выпущена предварительная версия модели OpenAI o1-preview для использования в ChatGPT и через API. Модель прошла тестирование на различных экзаменах и установленных бенчмарках машинного обучения, показав значительные улучшения в рассуждениях по сравнению с предшественником GPT-4o.


Новая модель OpenAI o1 умеет справляться со сложными задачами, требующими логических рассуждений
12 сентября OpenAI представила новую модель OpenAI o1, способную к «цепочке мыслей». Источник: OpenAI

OpenAI протестировала модель на различных задачах, включая математические, задачи по физике, биологии и химии, а также задачи по программированию. Результаты показали, что OpenAI o1 значительно превзошла предыдущую модель GPT-4o в большинстве задач, требующих аналитического подхода.

На экзаменах AIME 2024 года GPT-4o решила в среднем только 12% (1,8/15) задач. OpenAI o1 в среднем набрала 74% (11,1/15) с одним образцом на задачу, 83% (12,5/15) с консенсусом среди 64 образцов и 93% (13,9/15) при повторном ранжировании 1000 образцов, используя усвоенную функцию подсчёта баллов.

Компания также оценила OpenAI o1 по тесту GPQA diamond, сложному тесту интеллекта, который проверяет знания в области химии, физики и биологии. Чтобы сравнить модели с людьми, OpenAI привлекла экспертов с докторской степенью для ответов на вопросы GPQA-diamond. Результаты показали, что OpenAI o1 превзошла результаты экспертов, став первой моделью, добившейся этого.

Кроме того, OpenAI провела тестирование модели на человеческих предпочтениях, показав, что OpenAI o1-preview предпочтительнее GPT-4o в задачах, требующих аналитических навыков, таких как анализ данных, программирование и математика. Однако, модель OpenAI o1-preview не является предпочтительной для некоторых задач на естественном языке, что означает, что она подходит не для всех сценариев использования.

OpenAI o1 также продемонстрировала улучшение производительности в ключевых оценках безопасности, пройдя джейлбрейк тесты и внутренние бенчмарки для оценки границ отказа безопасности модели.

Компания планирует продолжать развивать эту модель, выпуская улучшенные версии. Новая функция «рассуждений» улучшит способность модели согласовываться с человеческими ценностями и принципами, открывая новые возможности использования ИИ в науке, программировании, математике и смежных областях.


Новая модель OpenAI o1 способна решать сложные задачи, требующие рассуждений
OpenAI o1 превосходит GPT-4o в сложных тестах рассуждений. Столбцы показывают точность pass@1, а затенённая область показывает производительность с 64 образцами. Источник: OpenAI

Цепочка рассуждений предоставляет новые возможности для согласования и безопасности. Компания обнаружила, что интеграция политик поведения модели в «цепочку мыслей» является эффективным способом надёжного обучения человеческим ценностям и принципам. Обучая модель своим правилам безопасности и тому, как рассуждать о них в контексте, компания получила доказательства того, что способность к рассуждениям напрямую увеличивает надёжность модели.

Для стресс-тестирования своих улучшений OpenAI провела несколько тестов безопасности и red-teaming в соответствии со своей структурой готовности. Результаты показали, что цепочка рассуждений способствовала улучшению показателей в этих оценках.

Компания OpenAI считает, что скрытая цепочка мыслей предоставляет уникальные возможности для мониторинга моделей. Если она верна и понятна, то позволяет понимать «мыслительный процесс» модели. Однако для того, чтобы это работало, модель должна иметь свободу выражать свои мысли в неизменённой форме, поэтому OpenAI не может обучать её следовать какой-либо политике или предпочтениям пользователя в цепочке мыслей.

Оценив множество факторов, таких как пользовательский опыт, конкурентные преимущества и возможность мониторинга цепочки рассуждений, OpenAI приняла решение не показывать пользователям необработанные цепочки. При этом компания признаёт, что это решение имеет свои минусы. Чтобы частично компенсировать это, OpenAI обучает модель воспроизводить любые полезные идеи из цепочки мыслей в ответе. Для моделей серии o1 OpenAI отображает сгенерированное резюме «цепочки мыслей».

OpenAI o1 — это значительный шаг вперёд в сфере искусственного интеллекта. Модель способна решать сложные задачи, требующие аналитического подхода, и демонстрирует улучшенные результаты в сравнении с предыдущими моделями. OpenAI намерена продолжать развивать эту модель и выпускать её улучшенные версии.

 

Источник: iXBT

Читайте также