Я пишу этот текст на фоне значительных успехов в области языковых моделей, прежде всего, ChatGPT, голосовых помощников Siri, Cortana, Алисы и других технологий искусственного интеллекта. При этом возникает большое количество оптимистичных прогнозов, что, так или иначе, машины приобретают мыслительные способности и становятся все более похожими на человека.
Соответственно, я хотел бы высказать некоторые идеи о том, насколько прогресс в области различных типов языковых моделей и голосовых помощников приближает машину к человеку, а также о том, насколько вообще оправданно утверждать, что такие машины могут мыслить.
В середине прошлого века британский математик Алан Тьюринг предположил, что проблема воссоздания или имитации общих мыслительных способностей человека может быть решена через разработку машины, способной поддерживать общение на естественном языке. С одной стороны, это было очень удачным шагом, чтобы прекратить абстрактные споры об искусственном мышлении и перейти хоть к каким-то практическим решениям, но, с другой стороны, с тех пор множество раз было отмечено, что связь между мышлением и языком далеко не так очевидна, как может показаться на первый взгляд.
Наиболее известным возражением против проверки мышления машины через диалог с человеком является т.н. «Китайская комната», мысленный эксперимент американского философа Джона Серла. В этом мысленном эксперименте демонстрируется, что сам по себе обмен сообщениями не обязательно сопровождается мышлением по умолчанию.
Я предлагаю рассмотреть эти две основные концепции еще раз, поскольку идея, что человеческий язык – это ключ к мышлению, представляется мне верной; но при этом, справедливо и замечание о том, что не всякая коммуникация равнозначна человеческой коммуникации, независимо от качества формирования ответных реплик.
Не думаю, что на вопрос о принципиальной возможности искусственного мышления можно дать какой-либо ясный ответ, но в отношении современных языковых моделей несложно показать, почему, несмотря на впечатляющие результаты, подобные машины не просто не демонстрируют никаких признаков мышления, но даже вообще не вступают в диалог с человеком.
«Тест Тьюринга»
Знаменитая статья Алана Тьюринга «Computing Machinery and Intelligence» (1950 г.) начинается с вопроса «могут ли машины мыслить», при этом предлагается «игра в имитацию» или «тест», который выглядит следующим образом.
В тесте принимают участие три человека: мужчина A, женщина B и опросчик C, пол которого не имеет значения. Опросчик C размещается отдельно от мужчины A и женщины B. Игровая цель опросчика C состоит в том, чтобы по результатам диалога с людьми A и B определить, кто именно из них мужичина и кто женщина. Опросчик может обозначить их 1 и 2, чтобы в конце игры сообщить, что «1 – это A, 2 – это B» или «1 – это B, 2 – это A». Например, опросчик может спросить: «скажите, пожалуйста, какой длины ваши волосы»? Предположим, что 1 – это A и что целью A является любым путем обмануть C. Ответом, следовательно, может быть примерно такой: «Длина моих волос примерно 25 см». Чтобы голос не выдал опрашиваемого, ответы могут быть даны в письменном виде. Далее, предположим, что B старается помочь опросчику и дает правдивые ответы на вопросы, а также добавляет такие высказывания, как «я женщина, не слушай его». Тем не менее, подобные действия легко может выполнить и мужчина A. Далее, необходимо представить, что аналогичный тест может быть проведен с участием машины A, человека B и опросчика-человека C. Возможно ли представить, что машина способна успешно вводить в заблуждение опросчика C в ходе диалога, и возможно ли при помощи такой задачи заменить исходный вопрос «может ли машина мыслить»?
Здесь следует отметить, что несмотря на простоту формулировки задачи, она предполагает ряд неявных утверждений о языке и мышлении, например, что язык сопровождается мышлением, что машина может вступать в коммуникацию аналогичным человеку образом и т.д. Поэтому для дальнейшего рассуждения предельно важно понимать, как именно устроена стандартная машина, поддерживающая общение на естественном языке (далее «диалоговая система») и что именно она делает.
В самом простом отношении типовая диалоговая система может быть описана через модель «черного ящика» и включает в себя три основных компонента: приемник и цифровой преобразователь входного сигнала, устройство обработки цифровых данных, аналоговый преобразователь выходного сигнала и передатчик выходного сигнала. Фактически, принцип устройства диалоговой системы основан на идее о том, что человеческое общение на естественном языке может быть описано, как процесс кодирования-декодирования сигнальных сообщений.
Удивительно, но во множестве наивных рассуждений о мышлении диалоговых систем игнорируется простой факт, что в современных диалоговых системах на текущий момент не реализован никакой другой функционал, помимо обмена сигнальными сообщениями. При этом, уже в статье Алана Тьюринга отмечается, что условная мыслящая машина должна решать более широкий круг задач, помимо сугубо коммуникативных, – работа с органами восприятия окружающего мира, обучение по аналогии с ребенком, решение абстрактных задач, как, например, игра в шахматы и др.
Следует понимать, что современной диалоговой системе бессмысленно задавать вопросы, которые требуют каких-либо дополнительных, экстракоммуникативных способностей, например, «что ты сейчас видишь?». В этом случае произойдет примерно следующее: высказывание «что ты сейчас видишь?» будет преобразовано в некоторую числовую последовательность, затем машина решит систему уравнений и определит числовые последовательности, которые будут являться основой для формирования ответных реплик на исходное высказывание. Учитывая, что для ответа на подобный вопрос от машины требуется решить задачу, которая выходит за рамки обмена сигнальными сообщениями, разработчики языковой модели могут задать ряд коммуникативных стратегий, чтобы не формировать простое сообщение об ошибке: можно уведомить пользователя, что машина не обладает такими возможностями, можно сформировать вопрос о коммуникативных целях исходного сообщения, можно сформировать шуточную реплику и т.д.
И тем не менее, сама по себе идея об искусственном мышлении предполагает, что человеческое мышление можно представить в виде некоторого оперирования сигналами с рядом дополнительных функций – восприятием окружающего мира и решением задач по обучению рациональным способам деятельности.
«Китайская комната»
«Китайская комната» – это так же мысленный эксперимент, предложенный Джоном Сёрлом в статье «Minds, Brains and Programs» в 1980 г. Данный мысленный эксперимент представляет собой контраргумент или критику предложения Алана Тьюринга, и указывает на принципиальные затруднения, связанные с решением задачи создания мыслящей машины на базе диалоговой системы.
Автор предлагает вообразить изолированную комнату с человеком внутри, который не знает китайского языка и, соответственно, не понимает китайское письмо. В данной комнате находится множество инструкций по обращению с китайскими иероглифами вида «возьмите такой-то иероглиф из корзинки №1 и поместите его рядом с таким-то иероглифом из корзинки №2», но при этом не предоставляется никаких пояснений о значении самих иероглифов.
Внешний для комнаты испытуемый, который владеет китайским языком, через щель передает в комнату письменные сообщения на китайском, ожидая получения какого-то ответа. Человек внутри комнаты механически следует инструкциям «на иероглиф X предоставить иероглиф Y» и передает ответ внешнему испытуемому тем же образом.
На первый взгляд, подобная критика «Теста Тьюринга» работает только в отношении диалоговых систем, которые являются исключительно сигнальными диалоговыми системами и не оборудованы органами восприятия и решения логических задач, но можно обратить внимание, что «Китайская комната» добавляет к неясному понятию «мышление» еще и «понимание» – указание на некое базовое наличие смысла у человеческого языкового высказывания, которое не возникает в случае механического составления внешней формы языковых высказываний по заданному набору правил.
Здесь следует подчеркнуть первую важную особенность человеческой коммуникации, которая упоминалась уже несколько раз и которая иногда теряется из вида, несмотря на ее очевидность: человеческая речь не сводится исключительно к замкнутому процессу обмена сигнальными сообщениями, а сопровождается работой набора индивидуальных психических функций, прежде всего, восприятия и мышления.
Человеческая речь может быть в упрощенной форме описана, как процесс сигнального взаимодействия, если для каких-то целей (например, сравнения естественных языков) нет необходимости рассматривать связь речи с мышлением и восприятием, но такой ход не делает человеческую речь чем-то отдельным от соответствующих индивидуальных психических функций. И наоборот, нет необходимости автоматически приписывать диалоговой системе индивидуальные психические функции, лишь на том основании, что она может формировать качественные ответы на человеческие вопросы, тем более, когда разработчики не решали других задач, помимо сигнального взаимодействия.
Для того, чтобы не путать человеческий язык с языком чат-ботов и голосовых помощников, последний можно обозначить иным термином, например, «сигнальный код» (по аналогии с тем, как это предлагает сделать Э. Бенвенист в отношении животных в статье «Коммуникация в мире животных и человеческий язык»). Но если в отношении животных этот вопрос несколько сложнее, то в отношении машин под «сигнальным кодом» можно понимать совокупность правил декодирования, обработки и формирования звуковых или графических сигналов, идентичных форме знаков человеческого языка.
Помимо указанного выше комплексного характера человеческого языка, следует отметить вторую важную особенность, что человеческий язык, а вслед за ним, и мышление, интерсубъективны и не представляют собой нечто самодостаточное. Усвоение языка и начальное развитие возможны только в сообществе и никогда не наблюдаются на отделенном от сообщества индивидууме, т.е. имитация или воспроизводство человеческого языка и мышления требуют разработки не отдельной машины, а условного сообщества машин.
Заключение
Важно понимать, что вопрос Алана Тьюринга состоит из двух уровней: возможна ли разработка машины, способной поддерживать общение на естественном языке похожим на человека образом и возможно ли таким образом ответить на исходный вопрос «может ли машина мыслить?».
С учетом сказанного выше, на это можно ответить двумя способами.
Если функции машины ограничены лишь декодированием и кодированием сигналов, то к мышлению это не имеет никакого отношения. Смысл в ответах такой машины появляется таким же образом, как пространство в зеркале, т.е. лишь потому что человек видит его в силу привычки. Поэтому любую современную диалоговую систему можно сравнить с обычным магнитофоном, разница лишь в том, что такой магнитофон оборудован огромным количеством кнопок и компьютером для вычисления последовательности их включения.
Второй ответ гораздо сложнее. Допустим, мы понимаем, что для того, чтобы воспроизвести или имитировать человеческое мышление на базе машины, требуется больший функционал, чем исключительно коммуникативный. Прежде всего, потребуется разработать группу машин, способных функционировать индивидуально и коллективно, при этом каждая машина должна быть оборудована органами восприятия, коммуникативным и логическим блоком.
Проблема заключается в том, что и человеческий язык, и человеческие индивидуальные психические функции существовали задолго до любых способов их описания. Соответственно, такие термины, как «мышление», «сознание», «коммуникация» и др., являются скорее абстрактным указанием на некоторые стороны естественной разумной жизни. Само по себе неочевидно, что эти стороны вообще могут быть описаны каким-либо завершенным образом, и в свою очередь, неочевидной является идея, что через логико-философский анализ человеческих мышления и речи можно в итоге сформулировать техническое задание на разработку условного искусственного интеллекта.
Нет ничего ошибочного в том, чтобы понимать человека, как сложно устроенный «черный ящик», но нет никаких объективных оснований, чтобы понимать человека, как цифровую вычислительную машину, состоящую из программной и аппаратной части, функционирование которой может быть полностью формализовано и просчитано.
Как бы парадоксально ни звучало, но вопрос о возможности искусственного мышления – это не практический, а теоретический вопрос, и на данный момент не имеется каких-либо ясных методов его решения. Это приводит к тому, что название «искусственный интеллект» широко используется для привлечения внимания к той или иной разработке, но в действительности это не имеет никакого отношения к человеческому интеллекту и даже к изначальному предложению Алана Тьюринга. Можно приводить любые философские аргументы в пользу обратного, но от этого интеллект в машине не появится так же, как от теоретических споров в зеркале не возникнет пространство, в которое можно будет войти.