Ученые из Калифорнийского университета в Сан-Диего обнаружили, что некоторые современные нейросетевые системы могут убедительно симулировать общение, принимаясь за людей.
В рамках эксперимента, базирующегося на классическом Тесте Тьюринга, модели GPT-4.5 и Llama 3.1–405B продемонстрировали превосходные результаты в стандартных трёхсторонних испытаниях, в то время как GPT-4o не смогла справиться с задачей.
Участники взаимодействовали с человеком и одной из систем на протяжении пяти минут и затем пытались определить, кто из собеседников являлся человеком. Общение носило формат светских дискуссий, акцентируя внимание на эмоциональных аспектах. Испытуемым разрешалось задавать вопросы, касающиеся мнений, чувств и переживаний.

Результаты эксперимента показали, что GPT-4.5 был идентифицирован как человек чаще настоящего человека, с показателем в 73%. Llama 3.1–405B получила 56%, в то время как GPT-4o показала лишь 21%.
Когда участник не может отличить человеческий интеллект от машинного, это значит, что система успешно прошла Тест Тьюринга. Таким образом, модели GPT-4.5 и Llama 3.1–405B продемонстрировали высокий уровень эмуляции человеческого общения.
Авторы исследования
Тест Тьюринга, предложенный Аланом Тьюрингом в 1950 году, оценивает способность машины имитировать человеческий разум. Если её ответы неотличимы от человеческих, система считается успешно прошедшей испытание.
Источник: iXBT