
Буквально через несколько минут после выхода этой статьи NVIDIA анонсирует технологический прорыв, который еще недавно казался недостижимым: дезагрегированную аппаратную платформу для систем искусственного интеллекта.
Однако на этот раз Amazon удалось опередить конкурента. Компания представила собственную интерпретацию этого инновационного форм-фактора за несколько дней до официального выступления Дженсена Хуанга. Я убежден, что данный подход в корне меняет сложившуюся парадигму развития ИИ-инфраструктуры.
Чтобы мой энтузиазм не казался необоснованным, в этой статье я подробно разберу суть технологии, её влияние на рынок и то, как это знание помогает прогнозировать стратегии NVIDIA, AMD и крупнейших облачных провайдеров, а также логику их взаимодействия с цепочками поставок.
Ниже — детальный разбор механики процесса и объяснение того, почему мы вступаем в новую эру аппаратного обеспечения.
Переход к архитектуре, ориентированной на память
Но для начала — главная новость. Если кратко: Amazon объявила о стратегическом партнерстве с Cerebras. Решения Cerebras будут задействованы на этапе декодирования при инференсе, тогда как собственные чипы Amazon Trainium возьмут на себя стадию предзаполнения (prefill).
Фактически они первыми реализовали раздельную специализацию оборудования для задач инференса — формат, который обещает стать индустриальным стандартом в ближайшем будущем.
Впрочем, если вы не следите за развитием ИИ-железа так же пристально, как я, эти термины могут показаться сложными. Давайте разберемся во всем по порядку.
Больше вычислительной мощи — больше времени на «раздумья»
В индустрии ИИ принято много рассуждать о значимости вычислений. Сегодня преимущество дает не сама архитектура модели — они у всех лидеров рынка сейчас во многом схожи.
Решающим фактором становится объем доступных вычислительных мощностей. Ответ на вопрос «Как сделать ИИ умнее?» обычно сводится к двум путям (или их комбинации):
-
Увеличение бюджетов на обучение. Это позволяет скармливать моделям колоссальные массивы данных. Сами модели становятся массивнее, но ключ здесь — именно в объеме переработанной информации.
-
Увеличение ресурсов на этапе инференса. Это дает модели возможность тратить больше ресурсов на «обдумывание» каждого конкретного ответа.
Если проводить аналогию с человеческим интеллектом: первый путь — это рост объема мозга и накопление жизненного опыта (как разница между ребенком и взрослым). Второй — это возможность выделить больше времени на решение сложной задачи.
Оба сценария диктуют жесткую потребность в мощном «железе». Однако термин «вычисления» слишком общий. Когда мы говорим именно об инференсе (исполнении модели), фокус смещается с центрального процессора на другой критически важный компонент: память.
Проблема «бутылочного горлышка» и главная метрика производительности
Для современных авторегрессионных языковых моделей (LLM) ключевым фактором производительности является не пиковая мощность процессоров, а скорость, с которой данные циркулируют между чипом и памятью.
В большинстве архитектур данные хранятся не в самом вычислительном ядре, а в выделенных чипах памяти. Чтобы процессор мог совершить операцию, память должна «доставить» ему нужные байты. Этот процесс требует времени и ограничен пропускной способностью, измеряемой в байтах в секунду.
На практике во время инференса (который уже потребляет львиную долю всех мировых ИИ-вычислений) ускорители простаивают. Они слишком производительны для того скудного объема данных, который успевает подавать память.
Для оценки этого эффекта используют показатель арифметической интенсивности (arithmetic intensity, AR). Он демонстрирует, сколько вычислительных операций (FLOP) оборудование способно выполнить на каждый переданный байт данных.
Возьмем для примера NVIDIA B300: производительность в 9 петафлопс (FP8) на один GPU при пропускной способности памяти HBM в 8 ТБ/с. Если разделить одно на другое, мы получим примерно 1 125 операций на каждый байт.
Говоря проще, AR — это мера реальной загрузки оборудования.
Чтобы лучше это понять, представьте курьера на огромном грузовике. Ему нужно доставить 10 посылок, и места в кузове хватит на все. Но на складе ему выдают строго по одной коробке за раз. В итоге мощная машина вынуждена совершать 10 рейсов там, где хватило бы одного. Грузовик работает, топливо сгорает, но эффективность стремится к нулю.
С GPU происходит то же самое: вычислительные ядра (грузовик) намного мощнее системы памяти (склада), из-за чего они работают с колоссальным недогрузом, потребляя при этом максимум электроэнергии. Доход на каждый затраченный ватт получается гораздо ниже потенциально возможного.
Пока технологические гиганты меняют архитектурные основы, вы можете использовать плоды прогресса уже сегодня. Платформы вроде BotHub обеспечивают доступ к самым продвинутым нейросетям мира — GPT-5.4, Claude 4.6 и многим другим — через интуитивно понятный интерфейс. Вам не нужно разбираться в тонкостях SRAM и HBM — просто используйте лучшие инструменты для своих задач.

Доступ возможен без VPN и с оплатой российскими банковскими картами.
Перейдя по этой ссылке, вы получите 300 000 бонусных токенов для тестирования системы и сможете начать работу с ведущими моделями немедленно!
Две стадии инференса
Принято считать, что инференс всегда упирается в память, но это упрощение. Процесс делится на две принципиально разные фазы:
Prefill (предзаполнение). Это период от клика на кнопку «Отправить» до появления первого символа ответа. В это время модель анализирует ваш запрос и формирует контекст.

Decode (декодирование). Стадия постепенной генерации токенов (слов). Она длится до тех пор, пока модель не завершит ответ.
Важный нюанс: проблема памяти критична именно для фазы декодирования. Этап prefill, напротив, практически не ограничен скоростью памяти.
Это объясняется тем, что при построении контекста модель обрабатывает массив данных целиком, и вычислительная нагрузка на каждый байт остается высокой. Но как только контекст сформирован (создан так называемый KV-кэш), модель начинает генерировать ответ по одному токену за раз.
И здесь наступает кризис эффективности. Модель должна задействовать все свои веса для предсказания всего одного следующего слова. Огромный объем данных прогоняется через память ради минимального объема полезных вычислений. Арифметическая интенсивность падает, а необходимость постоянно обновлять KV-кэш еще сильнее нагружает систему.
В нашей аналогии: вы по-прежнему едете на тяжелом грузовике, но теперь вам нужно доставлять по одной зубочистке. Это как попытка пробраться сквозь пробку на Ferrari со скоростью пешехода.
Устройство иерархии памяти
Чтобы понять, как решается эта проблема, нужно взглянуть на структуру памяти ИИ-серверов.
Она делится на два основных типа:
-
SRAM — память непосредственно «на кристалле». Это часть самого чипа. Она обладает наименьшей емкостью, но феноменальной скоростью, так как расположена вплотную к вычислительным блокам.
-
DRAM — внешняя память. В сфере ИИ это обычно HBM (High Bandwidth Memory). Она физически отделена от вычислительных ядер и соединена с ними специальной шиной. Представьте это как многополосную магистраль: ограничение скорости стандартное, но полос так много, что общая пропускная способность впечатляет.
Также существуют флеш-память и HDD для долгосрочного хранения.
Если задача не умещается в сверхбыструю SRAM, системе приходится обращаться к DRAM, что резко снижает темп работы. А при работе с очень длинными текстами данные могут начать сбрасываться даже во флеш-память, создавая критическое замедление.

Следовательно, реальная производительность ИИ зависит не столько от «мышц» процессора, сколько от грации «танца данных» между слоями памяти.
Новая веха: жизнь без ограничений HBM
Мы подошли к сути революции.
Amazon анонсировала гетерогенные серверы, где используются разные ускорители для разных задач: чипы Trainium3 для стадии prefill и системы Wafer-Scale Engine (WSE) от Cerebras для стадии decode.
Особенность архитектур типа WSE или LPU (от Groq, теперь входящей в орбиту NVIDIA) заключается в том, что они работают целиком на SRAM-памяти.
Это делает их невероятно быстрыми на этапе декодирования, поскольку все операции происходят внутри чипа. Отсутствие HBM означает отсутствие главного «бутылочного горлышка». Пропускная способность SRAM в NVIDIA B300 достигает 37 ТБ/с против 8 ТБ/с у HBM3e. Разрыв в скорости колоссальный.
Почему же не перевести весь инференс на SRAM-чипы? Почему NVIDIA всё еще продает свои GPU?
Во-первых, SRAM-решения великолепны в декодировании, но пасуют перед обучением моделей и стадией prefill, где требуется чистая вычислительная мощь. Во-вторых, это баснословно дорого. Для работы современной модели типа Kimi K2.5 требуется либо 4 стандартных GPU NVIDIA, либо целый кластер из 23 вейферов Cerebras или тысячи чипов Groq. Это выбор между экономией и экстремальной скоростью.
Решение от Amazon и NVIDIA элегантно: они объединяют оба мира.
-
Стадия Prefill доверяется классическим GPU (NVIDIA или Amazon Trainium).
-
Стадия Decode перекладывается на плечи SRAM-ускорителей (Cerebras, Groq).
Эта концепция дезагрегированного инференса скоро станет золотым стандартом, потому что она предлагает недостижимый ранее уровень эффективности.
Влияние на индустрию
NVIDIA сегодня представит аналогичную конфигурацию. Интегрируя решения Groq в свои серверы, компания затыкает рот скептикам, утверждавшим, что NVIDIA может проиграть битву специализированным чипам. Теперь они сами создают специализацию.
Производители DRAM (SK Hynix, Samsung, Micron) могут столкнуться с рыночной турбулентностью. Переход части инференса на без-HBM архитектуры — тревожный сигнал для инвесторов. И хотя спрос на классическую память останется огромным для CPU и кэширования, акции компаний могут отреагировать снижением на фоне диверсификации гигантов вроде Amazon.
Геополитика. SRAM-чипы можно производить на менее современных техпроцессах (от 5 нм), что снижает нагрузку на дефицитные 3-нанометровые линии. Это потенциально уменьшает критическую зависимость от производственных мощностей Тайваня.
AMD оказывается в роли догоняющего. Если дезагрегация станет мейнстримом, AMD придется либо покупать Cerebras (которые могут предпочесть IPO), либо срочно искать других партнеров. В противном случае они рискуют остаться лишь в нише обучения моделей и серверных CPU.
Google продолжает развивать вертикальную интеграцию. Их TPU изначально оптимизированы под собственные модели компании, что делает их менее уязвимыми к изменениям архитектурных трендов. К тому же масштаб инфраструктуры Google позволяет им легко внедрять любые крупногабаритные серверные решения.


