
На протяжении более десяти лет графические процессоры Nvidia оставались краеугольным камнем всех ключевых достижений в области искусственного интеллекта. Однако сегодня их позиции впервые подверглись серьёзному испытанию.
Передовые решения, такие как Gemini 3 от Google и Claude 4.5 Opus от Anthropic, были обучены не на GPU Nvidia, а на современных TPUv7 с архитектурой Ironwood от Google. Это демонстрирует, что жизнеспособная альтернатива «GPU-центристской» инфраструктуре уже появилась и способна коренным образом изменить экономику и принципы масштабного обучения моделей.
Дисклеймер: это свободное изложение статьи Дэвида Чена. Перевод подготовлен редакцией «Технократии». Подпишитесь на «Голос Технократии» для оперативных обновлений об AI, практических гайдах и свежих событиях.
Платформа CUDA (Compute Unified Device Architecture) от Nvidia предоставляет разработчикам доступ к сотням тысяч параллельных ядер GPU и сопровождается обширным набором инструментов. Развернув рабочие конвейеры на CUDA, переход на другую экосистему становится крайне затратным из-за сильной зависимости от стека Nvidia.

Tensor Processing Unit (TPU) изначально проектировались как специализированные ускорители для машинного обучения. С каждым поколением Google расширяла возможности этих чипов для выполнения крупных матричных операций, а в TPUv7 встроила сверхбыстрые межсоединения прямо в кристалл. В результате массивы TPU масштабируются как единое супервычислительное решение, без типичных для GPU-кластеров накладных расходов.
«TPU представляют собой готовую систему, а не просто отдельный процессор», — отмечает Вал Берковичи, директор по AI компании WEKA.
Коммерческий разворот Google
Раньше Google предлагала TPU исключительно в формате облачной аренды через Google Cloud Platform. В последние месяцы компания начала продавать аппаратные модули напрямую, разделив чип и облачную услугу. Теперь заказчики могут либо арендовать вычислительные мощности, либо приобрести оборудование в собственность — что выгодно крупным лабораториям, стремящимся к оптимизации капитальных затрат.

Ключевым элементом стратегии стал договор с Anthropic: для обучения Claude 4.5 Opus компания получит до 1 млн TPUv7. Из них примерно 400 тыс. чипов она закупает у Broadcom, а остальные 600 тыс. арендует у Google Cloud. Сделка оценивается в миллиарды долларов и надолго привязывает Anthropic к экосистеме Google.
Ослабление «крепости CUDA»
Nvidia много лет возглавляла рынок AI-ускорителей. Кроме мощного железа, экосистема CUDA предлагает оптимизированные библиотеки, инструменты и широкую базу разработчиков. Смещение в сторону другого стека воспринималось как технически и финансово нецелесообразное.
Одна из причин медленного проникновения TPU заключалась в том, что они лучше всего работали с JAX — внутренней библиотекой Google, тогда как индустрия преимущественно использует PyTorch, заточенный под CUDA.
Чтобы устранить это ограничение, Google добавила в TPUv7 полную нативную поддержку PyTorch: eager execution, распределённые API, torch.compile и возможность создания пользовательских TPU-ядер через PyTorch toolchain. Теперь запуск моделей на TPU стал таким же простым, как на GPU Nvidia.

Google также активно оптимизирует популярные open-source фреймворки для инференса, такие как vLLM и SGLang, чтобы упростить миграцию существующих проектов на TPU.
Ключевые преимущества и ограничения TPU по сравнению с GPU:
Главными критериями выбора между TPU и GPU для крупных ML-задач являются стоимость, производительность и масштабируемость. По данным анализа SemiAnalysis, благодаря узкой специализации и энергоэффективности TPUv7 обеспечивают лучшую пропускную способность на доллар как при обучении, так и при инференсе. Совокупная стоимость владения (TCO) сервером на базе Ironwood примерно на 44 % ниже, чем у эквивалентного кластера на GB200 Blackwell от Nvidia. С учётом наценки Google и Broadcom внешние клиенты получают экономию около 30 %.

Уже сегодня появление реальной альтернативы позволило OpenAI добиться скидок около 30 % на закупки GPU Nvidia. Кроме того, сама OpenAI начала использовать TPU Google через GCP, а Meta ведёт переговоры о внедрении TPU в свои дата-центры.
Однако Ironwood не универсален. TPU превосходят GPU в задачах глубокого обучения, но уступают в гибкости: GPU легко справляются с разнообразными вычислительными нагрузками и сразу поддерживают новые методы ML. Поэтому компании с разнопрофильными задачами зачастую продолжают отдавать предпочтение GPU.
Миграция с GPU на TPU может оказаться дорогостоящей: существующие конвейеры на CUDA, кастомные ядра и фреймворки требуют переработки под TPU.
По мнению Вала Берковичи, GPU остаются лучшим выбором, когда важна скорость вывода продукта на рынок и универсальность: «GPU работают в привычной инфраструктуре, опираются на обширную экосистему разработчиков и не требуют перестройки дата-центров».
Кроме того, экспертов по TPU в разы меньше. «Для максимальной эффективности TPU компаниям нужны узкоспециализированные инженеры, умеющие писать собственные ядра и оптимизировать компиляторы», — добавляет он.
На практике оптимальным часто становится гибридный подход: сочетание TPU для вычислительно насыщенных задач и GPU для гибкости и универсальности.
Гибридное будущее AI-архитектур
Гонка за лидерство в сегменте AI-ускорителей обостряется, но победитель пока не очевиден. С учётом темпов инноваций от Nvidia, Google и усиливающейся конкуренции со стороны Amazon в будущем доминирующими наверняка станут гибридные решения, объединяющие сильные стороны TPU и GPU.
«Мы наблюдаем рост спроса как на TPU, так и на GPU Nvidia», — отмечает представитель Google для VentureBeat. — «Большинство наших клиентов используют оба типа ускорителей. Благодаря семи поколениям кастомных TPU и широкому спектру новейших GPU мы предлагаем гибкость, необходимую для оптимизации инфраструктуры под любые задачи».



