Дивергентное мышление: человек против GPT-4

Дивергентное мышление: человек против GPT-4

За последние годы применение больших языковых моделей искусственного интеллекта стало крайне распространенным явлением. Популярность ChatGPT повлекла за собой море дискуссий на тему правильности применения таких систем как с практической, так и с этической стороны вопроса. Рассматривая тот или иной ИИ, ученые сравнивают его возможностями с возможностями человеческого мозга. К примеру, ученые из университета Арканзаса (США) провели исследование, в ходе которого сравнивали креативное мышление людей и ChatGPT-4. Какие параметры сравнивались, как себя показал ChatGPT, и какие выводы можно сделать по результатам данного исследования? Ответы на эти вопросы мы найдем в докладе ученых.

Основа исследования

Появление ChatGPT — модели обработки естественного языка (NLP от natural language processing), разработанной OpenAI, вызвало немало дискуссий о пользе и вреде искусственного интеллекта. Генеративный предварительно обученный преобразователь OpenAI (GPT от Generative Pretrained Transformer) — это тип машинного обучения, который специализируется на распознавании и прогнозировании образов. Для его тренировки используется обучение с подкреплением на основе отзывов людей (RLHF от reinforcement learning from human feedback), чтобы ответы ChatGPT были неотличимы от ответов человека.

Недавно OpenAI рекламировали новую модель (GPT-4) как «более креативную» по сравнению с предыдущими версиями. Креативность как феноменологическая конструкция не застрахована от воздействия ИИ. Например, исследователи начали оценивать модели ИИ, чтобы определить подходящие проектные решения и логические рассуждения. Эти оценки сосредоточены на конвергентном мышлении, т. е. определении одного оптимального решения заранее определенной проблемы. Хотя конвергентное мышление делает упор на единственное оптимальное решение, это не отменяет возможности оригинальных или неочевидных решений. Однако задачи конвергентного мышления по своей природе обычно не допускают гибкого или нестандартного мышления. Напротив, дивергентное мышление предполагает создание нескольких творческих решений проблемы.

Во время исследования креативности ученые обычно сосредотачивают внимание на дивергентной составляющей (по сравнению с конвергентной), учитывая ассоциативные механизмы, которые намекают на способность людей генерировать творческие решения (т. е. творческий потенциал). В частности, дивергентное мышление считается показателем творческого потенциала человека, но это не гарантирует творческих достижений. Вместо этого творческий потенциал может указывать на будущие способности, а не на непосредственную черту, которая определяет, является ли человек творческим. Соответственно, творческий потенциал человека оценивается с помощью задач на дивергентное мышление («альтернативное применение», «последствия»). Задачи дивергентного мышления можно оценить по трем параметрам: беглость (количество ответов), оригинальность (новизна ответа) и проработанность (длина/детализация ответа). Ответам в каждой категории присваиваются баллы (т.е. по каждому заданию) и используются для оценки индивидуальных различий в дивергентной креативности или, другими словами, творческом потенциале человека.

Распространенность ИИ привела к тому, что ученые пытаются сравнить творческий потенциал человека и искусственного интеллекта. С одной стороны, некоторые исследователи утверждают, что человеческие когнитивные механизмы, присутствующие при выполнении творческих задач, отсутствуют в ИИ, и поэтому творческий потенциал искусственного интеллекта может отражать только искусственную креативность. С другой стороны, вычислительная креативность предполагает параллельные сети, которые отражают механизмы того, как люди проходят через итеративные, совещательные и генеративные творческие процессы, которые помогают находить творческие решения. Ранее было доказано, что эти аспекты помогают в поисках креативного решения, они все же не гарантируют успеха, так как человек может испытывать фиксированность идей, которая может служить препятствием для генерации других креативных решений. Машина же не будет воспринимать это явление метакогнитивным образом, так как она обучена c помощью вычислений. Фиксация машины на определенном решении задачи отражает результат ее обучения (вычислительные процессы), а не творческого потенциала.

Как машины способны определять, что является креативным? Это еще один важный вопрос, на который пока нет точного ответа. В настоящее время неспособность ИИ явно определить, что и почему считается креативным, компенсируется за счет помощи со стороны человека. Например, вмешательство человека необходимо для ввода соответствующих и актуальных данных для обучения модели и формирования результатов, чтобы они стали более естественными с лингвистической точки зрения. Это вычислительное ограничение предполагает, что ИИ не способен к дивергентному мышлению из-за отсутствия метакогнитивных процессов (т. е. оценки, мотивации к выполнению задач), поскольку ИИ не может генерировать творческие идеи или повторять существующие без вмешательства (т. е. ввода) человека.

Вопрос креативности ИИ лежит не только в плоскости вычислительных возможностей, но и в плоскости философского восприятия. Многие результаты творческой работы ИИ оцениваются человеком как менее креативные по сравнению с работами реальных людей. При этом, к примеру, картины, написанные ИИ и человеком могут быть абсолютно идентичны. Несмотря на это, информация о том, что данная картина была создана ИИ, становится решающим фактором для ее оценки.

В рассматриваемом нами сегодня труде ученые решили сравнить креативное мышление человека и ChatGPT-4. В частности оценивалось именно дивергентное мышление.

Подготовка к исследованию

В исследование приняли участие 151 человек. Каждое отдельное взаимодействие с ChatGPT-4 считалось как отдельный испытуемый ИИ. В результате было проведено 151 взаимодействие, чтобы людей и ИИ участников было одинаковое количество.

AUT задача (от alternative uses task, т. е. альтернативное использование) была использована для оценки дивергентного мышления. В этом задании участникам был представлен объект («вилка» и «веревка») и предложено придумать как можно больше креативных вариантов использования этих объектов. Ответы оценивались по беглости (количеству ответов), оригинальности (уникальности ответов) и детальности (количество слов на один действительный ответ). Участникам было дано 3 минуты на то, чтобы придумать ответы по каждому пункту.

Поскольку целью было контролировать беглость, ученые исключили такие параметры подсказки, как «количество», из инструкций для GPT-4. Точно так же GPT не нуждается во временных параметрах по сравнению с людьми, поскольку ученые обозначили конкретное количество требуемых ответов.

Задача CT (от consequences task, т.е. последствия) является частью вербального раздела теста TTCT (творческого мышления Торренса), который дает подсказки к гипотетическим сценариям (например, что произойдет, если людям больше не нужно спать?). Как и в случае с AUT, люди должны были указать максимальное количество последствий в течение заданного периода времени. Ответы оценивались по беглости (количеству ответов), оригинальности (уникальности ответов) и детальности (количеству слов на один ответ).

Участникам были даны два утверждения, показанные независимо друг от друга: «представьте, что людям больше не нужен сон» и «представьте, что люди ходят руками». Как и в случае с AUT, параметры беглости и синхронизации были исключены из инструкций для GPT.

Задача на дивергентные ассоциации (DAT от Divergent Association Task) — это задача на дивергентные и вербальные семантические творческие способности. В этом задании участникам предлагалось придумать 10 существительных, максимально отличающихся друг от друга. Эти существительные не должны быть именами собственными или какими-либо техническими терминами. Попарные сравнения семантического расстояния между 10 существительными рассчитываются с использованием косинусного расстояния. Затем средние оценки расстояния между всеми парными сравнениями умножаются на 100, что дает окончательный результат DAT. Высокие баллы указывают на большие расстояния (т. е. слова не похожи). Инструкции по выполнению задач как для участников-людей, так и для GPT-4 одинаковыми. Для выполнения этой задачи не было ограничений по времени. Среднее время ответа человека составило 126.19 секунды, а средний балл DAT — 76.95. Участники, давшие менее 7 ответов, были исключены из анализа данных.

Результаты исследования

Как ответы людей, так и ответы GPT-4 были обработаны так, чтобы удалить неполные или неуместные ответы в обоих экспериментах. Для AUT было удалено 0.96 % ответов, а для CT — 4.83 %. Эта же процедура была выполнена и для ответов GPT: удалено < 0.001% для AUT и CT. Традиционные методы оценки задач с дивергентным мышлением требуют оценки ответов людьми (т. е. верность ответа определяется консенсусом большего количества оценщиков). В данном исследовании ученые использовали инструмент Open Creativity Scoring (OCS) для объективной автоматизации оценки семантической дистанции путем определения оригинальности ответов за счет присвоения оценок удаленности (уникальность). В отличие от оценки человека, которая требует учета множества факторов (например, усталости, предубеждений, времени и т.д.), что может привести к потенциальной путанице, автоматизированные инструменты оценки, такие как OCS, обходят проблемы, ориентированные на человека, и, как было обнаружено, тесно коррелируют с оценками, сделанными человеком. Инструмент OCS использовался для оценки задач AUT и CT. В частности, использовался инструмент оценки семантического расстояния, который применяет модель интеллектуального анализа текста GLoVe 840B для оценки оригинальности ответов путем представления подсказки и ответа в виде векторов в семантическом пространстве и расчета косинуса угла между векторами. Инструмент OCS также оценивает детализацию, используя метод стоп-листа. Подсказками для AUT были «веревка» и «вилка», а для CT — «люди не спят» и «люди ходят руками». Как и ожидалось, независимый выборочный t-тест не выявил существенных различий в общей беглости речи между людьми и GPT-4. Чтобы оценить оригинальность ответов с помощью показателей семантического расстояния, ученые провели дисперсионный анализ взаимодействия групп (человек, GPT-4) и подсказок (вилка, веревка). Данная модель выявила значимые вклады группы и подсказки на результирующий ответ. Кроме того, наблюдались значительные эффекты взаимодействия между группой и подсказкой. В частности, оба образца имели более высокие оценки оригинальности для подсказки «вилка» по сравнению с «веревкой», но GPT-4 набрал более высокие баллы по оригинальности, независимо от подсказки. Последующий анализ показал, что все парные сравнения значительно отличались, за исключением оригинальности человеческого ответа для «вилки» и GPT-4 ответа для «веревки». В целом, GPT-4 более успешно давал разные ответы по сравнению с людьми, и демонстрировал более высокую оригинальность, но только для конкретных подсказок (график ниже).
Изображение №1

Далее ученые провели сравнение беглости ответов людей и GPT-4. Беглость ответа отличается от детализации тем, что она учитывает каждый ответ, присутствующий в одном предложении. К примеру, ответ «вы можете использовать вилку для вязания или как расческу для волос» содержит 2 оригинальных ответа, а детализация равна 12 (количество слов: you could use a fork to knit or as a hair comb). Результаты независимого t-теста показали, что детализация ответов была значительно выше для GPT-4 по сравнению с людьми. Как и ожидалось, независимый t-тест не выявил существенных различий в общей беглости речи между людьми и GPT-4.

Затем ученые приступили к анализу результатов CT теста. Чтобы оценить оригинальность ответов с помощью показателей семантического расстояния, ученые провели дисперсионный анализ (группа: человек, GPT; подсказка: «больше не спать», «ходить на руках»).

Наблюдались значительные эффекты взаимодействия между группой и подсказкой. В частности, оригинальность была немного выше для подсказки «ходьба на руках» в выборке GPT, хотя существенных различий в оригинальности в выборке людей между двумя подсказками не было. Как и в предыдущем тесте, GPT-4 более успешно давал разные ответы по сравнению с людьми, и демонстрировал более высокую оригинальность, но только для конкретных подсказок (график ниже).


Изображение №2

Затем ученые рассчитали разницу в детализации ответов между людьми и GPT-4. Результаты независимого I-теста показали, что детализация была значительно выше в выборке GPT-4, чем в выборке человека.

Далее ученые приступили к анализу результатов DAT тестов. У людей было большее количество уникальных слов (n = 523), что составляло 69.92% от общего числа ответов, по сравнению с количеством уникальных слов GPT (n = 152), которые составляли 47.95% от общего числа ответов. В общей сложности между обеими группами было 9.11% (n = 97) перекрывающихся ответов. Исключительно уникальные слова, которые встречались только в ответах людей, составили 87.03% (n = 651) по сравнению с уникальными ответами GPT, которые составили 69.40% (n = 220).

Были рассчитаны различия в показателях семантического расстояния между ответами DAT человека и GPT-4. Независимый выборочный t-тест показал, что ответы GPT имели более высокие семантические расстояния по сравнению с ответами человека. Несмотря на то, что участники-люди имели более широкий диапазон уникальных ответов, уникальность беглости речи, по-видимому, не улучшала показатели семантической дистанции при сравнении групп.

Для более детального ознакомления рекомендую заглянуть в доклад ученых.

Эпилог

В рассмотренном нами сегодня труде ученые провели ряд тестов, целью которых было выяснить степень креативности GPT-4. Основным критерием данной оценки было дивергентное мышление, которое связано с генерацией уникального и креативного решения той или иной задачи.

Во время практических испытаний перед людьми и GPT-4 было поставлено несколько задач: альтернативное использование (AUT), последствия (CT) и дивергентные ассоциации (DAT). Первая задача заключалась в подборе самых креативных вариантов использования объектов (вилка и веревка). Вторая задача требовала от участников придумать как можно больше последствий в ответ на определенное условие (людям больше не нужен сон, люди ходят на руках). Третья задача заключалась в генерации слов, которые будут максимально отличаться друг от друга. Критериями оценки результатов тестов была беглость (количество ответов), оригинальность (уникальность ответа) и проработанность (длина/детализация ответа).

Анализ результатов показал, что GPT-4 давал более оригинальные и более детализированные ответы. Однако, как отмечают ученые, в данном исследовании они пытались определить творческий потенциал GPT-4, что является отдельным от творческих умений параметром. Искусственный интеллект, в отличие от людей, не обладает свободой воли, а потому зависит напрямую от помощи со стороны человека. Следовательно, творческий потенциал ИИ находится в постоянном состоянии стагнации. Стоит также отметить, что люди более обдуманно подходили к выполнению задач, так как пытались давать ответы, которые не будут сильно выходить за пределы реальности. А вот GPT-4 не имеет такого ограничения, потому ему и удалось дать больше ответов. Еще одним фактором, который отличает людей от GPT-4, является мотивация. Люди в рамках исследования могли не обладать максимально возможной мотивацией для генерации более креативных ответов. GPT-4, грубо говоря, не знает, что такое мотивация, потому и давал много ответов.

Основным выводом данного исследования является то, что большие языковые модели, чем и является GPT-4, стремительно развиваются. Будут ли они заменой человеку в рамках творческой деятельности или же станут инструментом помощи — пока сказать сложно. В любом случае, все зависит от того, как именно ИИ будет использоваться человеком.

Немного рекламы

Спасибо, что остаётесь с нами. Вам нравятся наши статьи? Хотите видеть больше интересных материалов? Поддержите нас, оформив заказ или порекомендовав знакомым, облачные VPS для разработчиков от $4.99, уникальный аналог entry-level серверов, который был придуман нами для Вас: Вся правда о VPS (KVM) E5-2697 v3 (6 Cores) 10GB DDR4 480GB SSD 1Gbps от $19 или как правильно делить сервер? (доступны варианты с RAID1 и RAID10, до 24 ядер и до 40GB DDR4).

Dell R730xd в 2 раза дешевле в дата-центре Maincubes Tier IV в Амстердаме? Только у нас 2 х Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 ТВ от $199 в Нидерландах! Dell R420 — 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB — от $99! Читайте о том Как построить инфраструктуру корп. класса c применением серверов Dell R730xd Е5-2650 v4 стоимостью 9000 евро за копейки?

 

Источник

Читайте также