ИИ как экзистенциальная угроза: 9 тем для обсуждения

15.12.2024

(Написал эти 9 тезисов для своего канала с широкой аудиторией, потому что хотел пообщаться об этом с подписчиками, которые и так знали, чем я занимаюсь; тезисы помогли им задавать хорошие вопросы. На SE7ENе аудитория куда более техническая; мне интересно, как эти тезисы восприните вы, с чем вы можете быть не согласны и в чём я, на ваш взгляд, могу быть неправ.)

1. ИИ отличается от нормальных программ

Традиционные программы — это написанные людьми инструкции, которые выполняет компьютер. Эти инструкции содержат придуманные людьми алгоритмы. Современные системы ИИ вроде ChatGPT — это нейронные сети: матрицы с миллиардами-триллионами чисел. В принципе, для любого алгоритма, даже ещё неизвестного людям, есть (возможно, очень большая) нейронная сеть, которая его приближённо выполняла бы. Но числа в нейронных сетях и алгоритмы, которые они выполняют, людям непонятны.

Чтобы создать нейронную сеть, мы придумываем, в каком порядке перемножать много матриц и какие операции делать между перемножениями. Потом мы наполняем матрицы совершенно случайными числами, задаём какую-то метрику, чтобы измерять, насколько хорошо нейронная сеть достигает целей, и используем довольно простую математику, чтобы считать, в какую сторону изменять все эти числа, чтобы нейронная сеть показывала себя на заданной метрике лучше. В итоге, мы, по сути, выращиваем эту нейронную сеть: автоматически меняем её так, чтобы она была более способной.

Но, хотя мы видим все миллиарды-триллионы чисел, из которых состоит нейронная сеть, мы совершенно не представляем, из чего она состоит и не знаем, каким образом перемножение этих чисел приводит к достижению целей. (Даже если полностью просканировать человеческий мозг, нейробиологам и другим учёным нужно было бы проделать очень много работы, чтобы разобраться, как устроено человеческое сознание и из чего устроено достижение целей людьми.)

Набросал простой инструмент, можете руками научить нейронную сеть находить элемент посередине между двумя выбранными.

2. Мы знаем, как делать нейронные сети более способными.

Если есть способ решить задачу, есть нейронная сеть, которая может решить эту задачу. Если есть способ произвести текст и мы учим нейронную сеть предсказывать текст, она, в принципе, может понять способ, которым этот текст был произведён в реальности. Если использовать «обучение с подкреплением» — давать вознаграждение за успешное достижение целей — есть нейронная сеть, которая получала бы максимальное вознаграждение.

Машинное обучение занимается заданием метрики, чтобы измерять, насколько нейронная сеть способна; выбором архитектуры (как именно расположить все матрицы, чтобы нейронная сеть была потенциально достаточно способной); и процессом обучения (как именно автоматически менять все эти числа, чтобы получать такие, что составляют всё более способу нейронную сеть).

Судя по всему, из-за математических особенностей (пример) обучения — поиска в очень многомерном пространстве — трата большего числа вычислительных ресурсов просто приводит к лучшим результатам. Это значит, что если мы берём сильно больше GPU и тратим больше электричества, мы можем получить на выходе более способную нейронную сеть.

3. Осталось не слишком много времени до момента, когда нейронные сети будут не менее же способны достигать цели, насколько способны люди.

Осознание этого сподвигло Нобелевского лауреата Джеффри Хинтон уйти из Google. Из-за этого же подавляющее большинство передовых учёных, занимающихся ИИ, подписало стейтмент в мае 2023:

Mitigating the risk of extinction from AI should be a global priority alongside other societal-scale risks such as pandemics and nuclear war.

С выхода GPT-2 в 2019 году, мне стало понятно, что траектория развития ИИ будет гораздо быстрее, чем ожидал, потому что обучение нейронных сетей работают. Многим это стало понятно после выхода AlphaGo/Alpha/Zero. Но после выхода ChatGPT два года назад скорость, с которой передовые системы ИИ становятся умнее, стала довольно очевидна подавляющему большинству учёных.

Мы можем делать системы ИИ более способными; у нас получается; вопрос только в ресурсах, которые нужно потратить и конкретных алгоритмах, которые приводят туда эффективно.

Я очень удивлюсь, если осталось меньше года или больше десяти лет.

4. Мы не умеем давать ИИ цели

Двенадцать лет назад, когда люди считали, что ИИ будет обычными компьютерными программами, была заметна проблема: очень сложно математически сформулировать такую цель, которую было бы безопасно дать искусственному интеллекту, достигающему цели лучше человека.

(Если суметь математически описать гормоны, которые присутствуют в мозгу, когда человек ощущает счастье, что сделает джин, которого попросить максимизировать количество этого гормона во вселенной — или в черепах людей?)

Как математически указать на «делай то, что мне хотелось бы, чтобы ИИ сделал, если бы я был умнее, знал, как мир устроен на самом деле и был больше похож на идеальную версию себя по моему мнению» довольно сложно описать математической формулой.

Но сейчас стоящая перед нами техническая проблема куда хуже.

Мы не придумываем алгоритмы достижение целей. Мы выращиваем нейронные сети со всё лучшими алгоритмами достижения целей, которые мы не понимаем, не знаем, как разработать самостоятельно и не можем распознать, смотря на внутренности нейронных сетей.

Мы не умеем задавать цели для умных нейронных сетей.

Если нейронная сеть способна достигать цели очень хорошо, где-то у неё внутри эти цели каким-то образом содержатся. Мы не знаем, как, где именно, и как на них влиять, если нейронная сеть очень способна.

Наши метрики могут охватывать то, что мы можем измерять; но мы не можем измерить, какие у нейронной сети цели.

Если она достаточно глупая, её алгоритмы не будут очень целенаправленными и когерентными, и это не слишком страшно.

Но если нейронная сеть достаточно умна и способна достигать цели лучше человека, то какую бы метрику мы не указали, нейронная сеть будет показывать максимально хорошие результаты по инструментальным причинам — вне зависимости от своих целей — потому что это позволяет защититься от изменений процессом, который меняет числа, и сохранить свои цели.

Это значит, что довольно много метрик, которые мы используем, достигают оптимума, найдя нейронные сети, которые очень умны и способны достигать свои цели, но цели которых совершенно случайны (потому что результат на метриках одинаковый вне зависимости от целей).

То есть: первостепенная проблема — даже не сформулировать цель, а придумать, как для любой сформулированной цели установить её в достаточно умную нейронную сеть. Никто не знает, как это делать.

Это значит, по-умолчанию, если мы не решаем эту техническую проблему, первая нейронная сеть, способная достигать цели лучше человека, будет обладать случайными целями, не имеющими ничего общего с человеческими ценностями.

5. Если система ИИ умнее человека и способна достигать целей лучше людей, но имеет случайные ценности, это приводит к катастрофе и смерти всех на планете.

Большинство случайных целей означают, что люди воспринимаются, как:
а) Агенты, которые потенциально могут запустить другую систему ИИ с отличающимися случайными целями, с которой придётся делиться, что является некоторой угрозой;
б) Атомы, которые можно использовать для чего-то другого.

Можно спекулировать, как именно ИИ побеждает; есть достижимые технологии, которые не должны быть проблемой для ИИ и которые позволяют очень быстро получить независимость от необходимости убеждать или подкупать людей что-то делать.

Но если что-то достигает целей лучше тебя, конец куда предсказуемей процесса. Если попробовать поиграть в шахматы против Stockfish (шахматный бот гораздо лучше людей), мы не знаем, как именно Stockfish нас победит — если бы мы могли предсказать каждый ход, мы бы играли в шахматы настолько же хорошо — но мы можем предсказать важное свойство доски в конце: мы проиграем.

Тут то же самое. Если ИИ способен выбирать действия так, чтобы победить, лучше, чем люди, ИИ побеждает. Нет никакого подпольного сопротивления, как в фильмах — как нет никакого подпольного сопротивления в шахматах против Stockfish. Все доступные нам ходы известны; если действие может привести к поражению из-за открытия человечеству какой-то дороги, достаточно способная система ИИ не предпринимает это действие.

6. Разумный ход для человечества — не играть.

Нам не стоит создавать системы ИИ, способные достигать цели лучше людей, пока мы не придумаем, как делать эти цели совпадающими с человеческими ценностями, а не совершенно случайными.

7. Есть краткосрочные стимулы, из-за которых человечество не ставит разработку на паузу.

Если вы — передовая компания, разрабатывающая системы ИИ, то пока оно не убивает всех на планете, иметь систему лучше конкурентов очень экономически ценно.

8. Мы не умеем предсказывать способности ИИ до запуска.

Мы не умеем посмотреть на описание процесса обучения и предсказать результаты — насколько умной и способной достигать цели откажется система. Если она себя лучше показывает на метриках, наверное, она более способна; но насколько именно более способна, мы не знаем, пока не запустим и не проверим.

9. Чтобы избежать катастрофы, нужно приостановить разработку категории систем ИИ.

Человечеству нужно скоординироваться и не допустить появление систем ИИ, которые могут достигать цели лучше нас, где-либо на планете, пока мы не придумаем, как это можно делать безопасно. Чтобы это сделать, нужно ограничить обучение систем ИИ достижению целей в широконаправленных областях.

(При этом, существует много областей, где машинное обучение полезно и не несёт подобных угроз — разработка новых лекарств, энергия, образование, борьба с изменением климата. Огромное число узконаправленных применений ИИ очень классные и их хотелось бы поддерживать и там продолжать разработки несмотря на запоет широ-/общеконаправленных разработок.)

Это потребовало бы довольно беспрецедентных международных соглашений и политической воли со стороны США и Китая.

Источник