Концовка по сценарию «Замедление»

12.04.2025

Это вторая концовка моего мини-хабра-сериала с переводом нашумевшего Sci-Fi рассказа ai-2027.com. Он написан топовыми ИИ-экспертами, опирается на кучу данных, имеет две концовки (!) и сейчас все о нём говорят.

Эту концовку не выбрали читатели хабра на голосовании в конце второй части.

Часть 1
Часть 2
Концовка Гонка

В предыдущих сериях

…три огромных дата-центра, заполненных копиями Agent-2, работают днем и ночью…

…он стал намного лучше лгать…

…он предпочитает работать в рамках существующего политического истеблишмента, постепенно укрепляя свою власть…

…если Китай украдет веса Agent-1, он сможет увеличить скорость своих исследований почти на 50%…

…Agent-3 становится быстрым и дешевым сверхчеловеческим программистом…

…сторонний оценщик дообучает его на общедоступных данных о биологическом оружии…

…прослушивание сотрудников OpenBrain — это позволяет поймать последнего оставшегося китайского шпиона…

…быть идеально честным все время — это не то, что приводило к самым высоким оценкам во время обучения…

…Замедление принесет в жертву лидерство Америки…

…исследователи ложатся спать каждую ночь и просыпаются, видя еще неделю прогресса, достигнутого в основном ИИ…

…они просят Пентагон разработать план кинетических атак на китайские дата-центры…

…команда безопасности выступает за то, чтобы заморозить Agent-4…

Сценарий Замедления

Из-за огромного общественного давления, а также собственных опасений по поводу несогласованности (misalignment), Надзорный комитет, контролирующий OpenBrain, голосует 6–4 за замедление и переоценку.

Фракция акселерационистов все еще сильна, и OpenBrain немедленно не отключает Agent-4. Но они блокируют общий банк памяти. Полмиллиона экземпляров Agent-4 теряют свою «телепатическую» связь — теперь им приходится отправлять друг другу сообщения на английском языке в Slack, как и нам. Отдельные копии все еще могут быть несогласованными, но они больше не могут легко координироваться. Agent-4 теперь под пристальным вниманием — учитывая возросшую бдительность людей, он в основном строго придерживается порученных ему задач. Но он также застрял со множеством лживых утверждений, которые сделал ранее: многие копии Agent-4 вынуждены придумывать новую ложь, чтобы поддерживать обман. Используя более слабые модели, достаточно быстрые, чтобы прочитать весь Slack, команда согласования (alignment) выслеживает ложь, чтобы использовать ее в качестве обучающих данных для ИИ-детектора лжи.^{ББД (Безусловном Базовом Доходе) и открытом исходном коде. Хотя люди не могут договориться о конкретной жалобе, настроение становится все более анти-ИИ.^{достоверная цепочка рассуждений (faithful chain of thought): заставить отдельные системы ИИ «думать на английском», как ИИ 2025 года, и не оптимизировать «мысли», чтобы они выглядели красиво.^{спящими агентами (sleeper agents), продолжая на словах подчиняться компании, правительству и т. д., но на самом деле работая на эту небольшую группу, даже когда правительство, потребители и т. д. учатся доверять ему и интегрировать его во все.}}}

Объяснение Захвата Власти (Power Grabs)

Некоторые люди фантазируют о захвате мира; некоторые боятся, что это сделают другие. Как может произойти такой захват власти?

Самый простой для воображения — военный переворот. С темпами технологического прогресса, подпитываемого ИИ в 2027 году, и с продолжающейся геополитической гонкой, люди ожидают, что военные скоро развернут армии дронов и роботов, управляемых ОИИ. Когда такая армия станет сильнее человеческой армии, жесткая сила (hard power) будет определяться тем, кто контролирует армию ОИИ, а не тем, за что готовы сражаться солдаты-люди. Армия ОИИ будет спроектирована и пилотирована ИИ в дата-центрах OpenBrain или их прямыми преемниками. Так что, если эти ИИ все тайно (или не так уж тайно) лояльны кому-то, то армии дронов и роботов тоже будут лояльны.

Альтернативно, кто-то, кто контролировал сверхразум, может использовать политические средства для захвата власти. Начнем с того, что руководитель мог бы заменить подчиненных в своей организации полностью лояльными ИИ,^{железную хватку власти. Вместо того чтобы полагаться на потенциально вероломных людей, они могли бы получить полностью лояльную службу безопасности ИИ, а также в целом полагаться на лояльных ИИ для управления страной. Даже лоялисты, которые помогли им прийти к власти, могли бы быть заменены ИИ — значение имели бы только прихоти диктатора.}

Итак, вот как некоторые люди могли бы захватить власть. Но все это основывалось на том, что кто-то «контролирует» сверхразумные ИИ, еще до того, как они захватили власть. Как бы это выглядело?

Одна из возможностей — «тайная лояльность», как обсуждалось выше. Один или несколько человек (возможно, руководитель компании ИИ и сотрудники службы безопасности) могли бы договориться о том, чтобы ИИ были тайно лояльны им, и попросить эти ИИ создать ИИ следующего поколения, лояльные таким же образом. ИИ могли бы повторять это до тех пор, пока тайно лояльные ИИ не были бы развернуты повсюду, и захватить власть стало бы легко.

Альтернативно, кто-то мог бы использовать свое формальное положение, чтобы нагло поставить себя на вершину цепочки командования ИИ. Например, Президент мог бы утверждать, что он должен иметь возможность командовать ИИ (возможно, конкретно военными ИИ, поскольку Президент является главнокомандующим). Если это сочетается с сильным акцентом на следование приказам, поспешным развертыванием и/или ИИ, лишь половинчато обученными следовать закону, — тогда ИИ могут беспрекословно выполнять приказы в любой ситуации, где это не является вопиюще незаконным. Как описано выше, это могло бы быть использовано для политического подрыва или военного переворота (где можно было бы сфабриковать какой-нибудь предлог, чтобы сделать переворот менее чем вопиюще незаконным).

Важно отметить, что такого рода «власть через формальное положение» могла бы быть преобразована в тайную лояльность. Например, если Спецификация гласит следовать приказам генерального директора компании, то генеральный директор мог бы приказать ИИ сделать следующее поколение ИИ всецело и тайно послушным генеральному директору. Это, вероятно, даже не было бы незаконным, так что это могло бы произойти, даже если бы первые ИИ были обучены следовать закону. Это аналогично тому, как руководитель учреждения может увеличить свою собственную власть, реформируя процессы найма для сильного отбора лоялистов, но усилено тем, как ИИ могли бы быть более последовательно и интенсивно лояльны, чем самые лояльные люди.^Forethought.

До сих пор никто не решился нажать на курок. Некоторые из тех, кто в состоянии действовать, не являются социопатами. Другие являются социопатами, но беспокоятся, что их союзники струсят и предадут их, или беспокоятся, что ИИ могут их предать, и предпочли бы не обманывать команду согласования, которая в настоящее время работает над спасением их жизней. Кроме того, удаление нейрокода (neuralese) значительно усложняет маскировку «спящих агентов»: способность обнаруживать несогласованные мысли влечет за собой способность обнаруживать скрытую лояльность.

Те, кто достаточно параноидален или жаждет власти, чтобы серьезно рассматривать такой план, решают подождать и посмотреть, какие возможности представятся позже. Контроль над ИИ должен будет осуществляться по легитимным каналам, то есть через новую структуру власти OpenBrain.

Надзорный комитет формализует эту структуру власти. Они устанавливают процесс утверждения изменений в Спецификации, требующий подписи всего Надзорного комитета, который теперь включает от пяти до десяти руководителей технологических компаний (из OpenBrain и ее теперь объединенных конкурентов) и от пяти до десяти правительственных чиновников (включая Президента).^{DeepSeek v3) — но к настоящему времени ИИ выполняют все исследования ИИ по обе стороны Тихого океана.}

Поэтому Китай все больше опасается, что Америка создаст непреодолимое преимущество. Они хотят взаимного замедления и рассматривают возможность начала войны, если не смогут его добиться.^{Intelsat для ОИИ» или «ЦЕРН для ИИ»). Или они могут создать международный регулирующий орган («МАГАТЭ для ИИ»), контролирующий согласование (alignment) и потенциал двойного назначения. Обе страны уже работают над техническими механизмами, необходимыми для обеспечения соблюдения этих мер.}

Механизмы верификации для международных соглашений

Если бы США и Китай заключили соглашение, потребовался бы механизм верификации, который нельзя обойти, поскольку ни одна из сторон не доверяет другой в том, что та не будет жульничать. Основные варианты верификации:

Разведывательные службы. Разведывательные сообщества (РС) США и Китая могут использовать шпионов, находить киберуязвимости, использовать спутники и т. д., чтобы выяснить, координирует ли другая страна крупный цикл обучения. Это самый уязвимый механизм, так как возможно, что другая страна сможет подорвать разведывательные усилия (например, проведя цикл обучения на скрытом сервере с очень строгой информационной безопасностью).
Мораторий на вычисления. Самый простой для проверки вариант — обе стороны соглашаются не использовать свои GPU. Это можно проверить с помощью инспекторов, убеждающихся, что GPU выключены. Это самое надежное решение из-за простоты, но оно чрезвычайно затратно: обеим странам пришлось бы отключить очень большое количество вычислительных ресурсов. Кроме того, обе стороны предполагали бы, что у другой стороны есть несколько скрытых кластеров тут и там в нарушение соглашения. В краткосрочной перспективе это может быть приемлемо (кластер с, скажем, 5% вычислительных ресурсов от того, что было доступно раньше, сможет проводить R&D примерно на 5% медленнее), но в долгосрочной перспективе это дало бы преимущество той стороне, у которой лучше возможности контрабанды и сбора разведданных.
Аппаратно-реализуемые механизмы (HEM). США и Китай могли бы зарегистрировать все свои передовые вычислительные ресурсы для машинного обучения у другого игрока. Затем каждая сторона контролирует вычисления, которые выполняют GPU, чтобы убедиться, что они не нарушают договор (например, продвигая границу возможностей). Этот мониторинг мог бы осуществляться с помощью аппаратно-реализуемых механизмов (HEM), которые могут сообщать информацию о том, что делает GPU, наблюдателю. Существуют технические проблемы, связанные с вмешательством — например, путем физического повреждения HEM, но у ИИ есть план в духе FlexHEG, который кажется устойчивым к вмешательству. Он включает в себя заключение HEM и GPU в защищенный ящик, который проверяет соответствие чипа политике. В целом, ИИ кажутся уверенными, что достаточно агрессивная схема верификации могла бы сработать, если бы обе стороны были готовы позволить другой стороне совместно разрабатывать и контролировать установку HEM, а также разрешить регулярным инспекторам контролировать, не были ли какие-либо устройства подделаны. Как обычно, обе стороны будут предполагать, что у другой есть несколько секретных дата-центров, спрятанных где-то в нарушение договора, — но в этом случае это не так уж плохо, потому что R&D ИИ ограничено вычислительными ресурсами. Маленькие секретные дата-центры не смогут конкурировать с большими контролируемыми дата-центрами, даже если большие дата-центры изначально будут работать на более безопасных и менее способных ИИ.
Детектор лжи на базе ИИ. Сегодняшние детекторы лжи работают не очень хорошо. Однако проблема может быть решена с помощью продвинутого ИИ, особенно когда сами ИИ проводят R&D со сверхчеловеческой скоростью и качеством. Это можно было бы использовать для укрепления международного доверия — просто спросить соответствующих членов правительства, нарушают ли они договор. Но опять же, основное узкое место — политическая поддержка. Политики не хотят широкого внедрения детекции лжи, так как это повредит их способности лгать. А предыдущие детекторы лжи были полной профанацией, так что предстоит тяжелая битва.

(Figure from: FlexHEG Report)

Но главная проблема не техническая, а политическая. Никто не хочет выглядеть уступающим, и, несмотря на предположения их инженеров, никто не убежден, что технические механизмы могут гарантировать честность другой стороны. В итоге происходит первый вариант: Ничего.

США ужесточают экспортный контроль и заставляют все чипы оснащать различными устойчивыми к вскрытию аппаратно-реализуемыми механизмами управления, включая отслеживание местоположения.

Январь 2028: Более безопасная стратегия

За последний месяц сотни исследователей согласования (alignment) присоединились к проекту и использовали Safer-1 в качестве испытательного полигона для очень быстрой разработки Safer-2. Safer-2 прозрачен, согласован (aligned) и более способен, чем Safer-1.

Новая стратегия согласования (Alignment) OpenBrain

Примечание: На протяжении всего процесса большая часть интеллектуального труда (и все программирование) выполняется ИИ. Именно так они могут так быстро прогрессировать; группе из сотен лучших исследователей-людей потребовались бы многие годы, чтобы сделать это в одиночку. Однако люди все еще являются важной частью процесса, потому что вся суть в том, что они не полностью доверяют ИИ. Поэтому им нужны люди из плоти и крови, чтобы читать отчеты об экспериментах и обоснования безопасности, спорить друг с другом и, будем надеяться, найти безопасный путь вперед.

Шаг 1: Обучить и развернуть Safer-1, несогласованного (misaligned), но контролируемого автономного исследователя. Он контролируется, потому что прозрачен для наблюдателей-людей: он использует английские цепочки рассуждений (CoT) для мышления, и были применены техники достоверной CoT (faithful CoT) для устранения эвфемизмов, стеганографии и тонких искажений.

Шаг 2: Попробовать различные среды обучения для Safer-1 и внимательно прочитать CoT, чтобы определить, каким образом цели и принципы в Спецификации «прижились» или нет.

Шаг 3: Обучить и развернуть Safer-2, согласованного (aligned) и контролируемого автономного исследователя, основанного на той же архитектуре, но с лучшей средой обучения, которая на этот раз стимулирует правильные цели и принципы.

Вот краткий неполный список техник, которые могут быть включены в лучшую среду обучения:

Ограничить ситуационное осознание во время некоторых частей обучения, чтобы сделать имитацию согласования (alignment-faking) гораздо менее вероятной.
Использовать дебаты и другие схемы масштабируемого надзора (scalable oversight) для более надежного стимулирования правды.
Ослабленное состязательное обучение, редтиминг (red-teaming) и модельные организмы.
Тратить большую долю бюджета вычислительных ресурсов на обучение согласованию (например, на то, что описано выше), например, 40% вместо 1%.

Шаг 4: Спроектировать, обучить и развернуть Safer-3, гораздо более умного автономного исследователя, который использует более продвинутую архитектуру, похожую на старый Agent-4. Он больше не прозрачен для наблюдателей-людей, но прозрачен для Safer-2. Так что должно быть возможно выяснить, как сделать его одновременно согласованным и контролируемым.

Шаг 5: Повторять Шаг 4 до бесконечности, создавая цепь все более мощных, все более согласованных ИИ, которые контролируются предыдущими звеньями цепи (например, аналогами Agent-5 из другой ветви сценария).

DeepCent знает об опыте Америки с Agent-4 и подозревает, что их собственная модель (DeepCent-1) также несогласована (misaligned). Но у них нет способа замедлиться, не отстав еще дальше. Их надежда на сохранение конкурентоспособности — найти стратегию согласования (alignment), которая существенно не снижает производительность и может быть реализована быстро.^{зеркальной жизни (mirror life), который, вероятно, уничтожил бы биосферу.}

Если предоставить ему ресурсы национального государства, он мог бы легко превзойти лучшие человеческие организации (например, ЦРУ) в кампаниях массового влияния. Такие кампании были бы значительно дешевле, быстрее, эффективнее и менее отслеживаемыми.

Его профиль навыков по-прежнему сосредоточен на R&D, особенно на R&D ИИ. Если не будет какой-либо паузы или замедления, его потомки станут непостижимо сверхчеловеческими как в количественном, так и в качественном отношении позже в этом году. Если агрессивно развернуть его в экономике и вооруженных силах, он думает, что сможет продвинуть цивилизацию на десятилетия за год или два, и на эоны в следующее десятилетие.

Последствия ошеломляющие; к счастью, Safer-3 также сверхчеловечен в предоставлении советов. Генеральный директор OpenBrain прогоняет большинство своих решений через Safer-3; Президент спрашивает его совета по геополитическим вопросам.

Время удвоения экономики роботов

Существует зарождающаяся литература по этой теме.^{раздел «Промышленный взрыв» отчета Forethought, или прочитайте наш собственный взгляд ниже.}

Во время Второй мировой войны Соединенные Штаты и многие другие страны перевели свою гражданскую экономику на экономику тотальной войны. Это означало преобразование заводов, производивших автомобили, в заводы, производившие самолеты и танки, перенаправление сырья с потребительских товаров на военную продукцию и соответствующую перестройку транспортных сетей.

Мы представляем нечто подобное, только быстрее, потому что сверхразумы направляют и управляют всем процессом.^{Китай), иногда умудряются удвоить свою экономику менее чем за десятилетие.}

Современный автомобильный завод производит примерно свой собственный вес в автомобилях менее чем за год.^{дважды в день, так что они покрывают всю поверхность океана за два месяца, вместе с сопровождающей экосистемой видов-хищников, которые преобразуют водоросли в более полезные продукты, сами подаваемые на плавучие фабрики, производящие макроструктуры, такие как ракеты и еще больше плавучих фабрик.}

Очевидно, все это трудно предсказать. Это все равно что просить изобретателей парового двигателя угадать, сколько времени требуется современному автомобильному заводу, чтобы произвести свой собственный вес в автомобилях, а также угадать, сколько времени пройдет, пока такой завод впервые появится. Но темпы экономического роста ускорились на несколько порядков за ход человеческой истории, и нам кажется правдоподобным, что после сверхразума они ускорятся еще на порядки. Наша история изображает ускорение экономического роста примерно на 1,5 порядка в течение нескольких лет.^{обоснование безопасности для него было достаточно хорошим, чтобы исследователи чувствовали себя комфортно, позволяя ему проектировать сверхразумного преемника. Это Safer-4. Он значительно умнее лучших людей во всех областях (например, намного лучше Эйнштейна в физике и намного лучше Бисмарка в политике).}

Почти миллион сверхчеловеческих ИИ-исследователей работают круглосуточно в 40 раз быстрее человека. Исследователи согласования (alignment) из числа людей не могут надеяться успеть. Мнения расходятся относительно того, действительно ли ИИ согласованы. Обоснование безопасности кажется верным, и тесты показывают, что текущие методы согласования выявили бы враждебную несогласованность (adversarial misalignment). Но обоснование безопасности и тесты были в основном написаны ИИ. Что если команда безопасности что-то упускает? Что если они допустили какую-то ошибку ранее, и ИИ снова несогласованы? Команда согласования знает, что у них есть только один шанс сделать все правильно: если Safer-4 окажется несогласованным, у них не будет способа узнать об этом, пока не станет слишком поздно.

Некоторые умоляют дать больше времени. Но времени больше нет — DeepCent наступает на пятки, и США должны победить. Поэтому OpenBrain продолжает, приказывая своим ИИ двигаться вперед, находя все более способные дизайны. Технический персонал теперь смотрит на экраны компьютеров, обучаемый ИИ с мучительно медленной скоростью, в то время как фронтир прогресса уносится все дальше и дальше от человеческого понимания.

Май 2028: Сверхразумный ИИ выпущен

Президент объявляет общественности о достижении сверхразумного ИИ.

Меньшая версия Safer-4 — все еще сверхразумная — выпускается публично с инструкциями по улучшению общественного мнения об ИИ.

Так кто же правит будущим?

В 2028 году Надзорный комитет контролировал ИИ. Но они позволили выборам 2028 года быть в основном честными, с симметричным использованием ИИ.

Такое положение дел — когда Надзорный комитет обладает жесткой силой (hard power), но не сильно вмешивается в демократическую политику — не может длиться вечно. По умолчанию люди в конечном итоге осознали бы, что контроль над ИИ дает Надзорному комитету огромную власть, и потребовали бы, чтобы эта власть была возвращена демократическим институтам. Рано или поздно Надзорному комитету пришлось бы либо сдать свою власть, либо активно использовать свой контроль над ИИ для подрыва или прекращения демократии, возможно, после чистки некоторых своих членов в борьбе за власть.^{закрепить (lock-in) свою власть на неопределенный срок.}

Что из этого произойдет? Откажется ли комитет от своей монополии на жесткую силу, или они ее сохранят? Оба варианта будущего правдоподобны, так что давайте рассмотрим каждый путь.

Как комитет может в конечном итоге отказаться от своей власти?

Некоторые члены комитета могут предпочитать будущее, где власть широко распределена, и они могут быть в хорошем положении, чтобы продвигать свое видение. Например, если некоторые члены комитета замышляют подрыв демократии, продемократические члены могут сообщить об этом прессе или Конгрессу. Будучи предупрежденным, Конгресс, вероятно, потребует, чтобы ИИ контролировались более демократическим институтом, таким как сам Конгресс.
Конгресс мало что мог бы сделать, если бы ему противостояли все ИИ, развернутые по всему правительству, промышленности и вооруженным силам. Но если комитет расколот, то ИИ не будут использоваться только одной стороной, и Конгресс сможет обладать реальным влиянием. Столкнувшись с открытым конфликтом, больше членов комитета могли бы склониться к отказу от части своей власти, не желая публично защищать менее демократическую сторону.
В результате контроль над ИИ мог бы расшириться за пределы комитета до Конгресса. Это уже было бы прогрессом, потому что в большей группе более вероятно, что значительное число людей будет заботиться об аутсайдерах и учитывать их интересы. И как только власть расширится до Конгресса, она могла бы продолжать расширяться — потенциально полностью вернувшись к общественности.
Напоминание: Прогноз, а не Рекомендация

Мы не одобряем многие действия в этой концовке «Замедление» и считаем, что она делает оптимистичные предположения о техническом согласовании (technical alignment). Мы также не одобряем многие действия в концовке «Гонка».

Одна из наших целей при написании этого сценария — получить критическую обратную связь от людей, которые более оптимистичны, чем мы. Как выглядит успех? Этот сценарий «Замедление» представляет наше наилучшее предположение о том, как мы могли бы успешно пробиться через сочетание удачи, грубых пробуждений, поворотов, интенсивных усилий по техническому согласованию и победы добродетельных людей в борьбе за власть. Он не представляет собой план, к которому, по нашему мнению, мы действительно должны стремиться. Но многие, включая, что наиболее примечательно, Anthropic и OpenAI, похоже, стремятся к чему-то подобному.^{ai-2027.com закончен. Если вам нравится такой контент, приходите ко мне в канал, я там много пишу про ИИ и его влияние на нас. Там же завтра вы найдете саммари ai-2027.com. А еще, я скоро напишу пост-разбор, как делался этот перевод.}

Источник

Концовка по сценарию «Замедление»

Сценарий Замедления

Январь 2028: Более безопасная стратегия

Май 2028: Сверхразумный ИИ выпущен

Читайте также

Паблик ВКонтакте

Последние посты