Google представила новые ИИ-чипы TPU 8t и 8i для своего гиперкомпьютера

Корпорация Google представила восьмое поколение своих специализированных ИИ-ускорителей Tensor Processor Unit (TPU). Эти решения стали фундаментом обновленного гиперкомпьютера компании.

Линейка пополнилась двумя модификациями: TPU 8t и TPU 8i. Инженеры Google DeepMind спроектировали их для решения ресурсоемких задач искусственного интеллекта и адаптации под стремительно эволюционирующие архитектуры нейросетей.

Google представила новые ИИ-чипы TPU 8t и 8i для своего гиперкомпьютера
Фото Google

Каждый из чипов оптимизирован под конкретный тип нагрузки. TPU 8t ориентирован на интенсивное обучение моделей, позволяя сократить время разработки передовых систем с нескольких месяцев до считанных недель.

  • Впечатляющая масштабируемость: один вычислительный узел TPU 8t объединяет 9600 чипов и два петабайта сверхбыстрой памяти. Удвоение межчиповой пропускной способности по сравнению с предшественником обеспечивает общую производительность в 121 эксафлопс, позволяя массивным нейросетям оперировать единым пространством памяти.
  • Максимальная утилизация ресурсов: внедрение технологии TPUDirect ускоряет доступ к хранилищу в 10 раз, обеспечивая прямую передачу данных в чип, что значительно повышает общую эффективность системы.
  • Почти линейное масштабирование: связка из сети Virgo Network, среды JAX и программного стека Pathways позволяет объединять до миллиона чипов TPU 8t в единый кластер, сохраняя при этом практически линейный прирост мощности.
Фото Google

Модель TPU 8i разработана для задач логического вывода (инференса). Этот чип предназначен для координации множества специализированных ИИ-агентов, которые работают совместно, выстраивая сложные цепочки рассуждений для глубокой аналитики и решения многоуровневых проблем.

Фото Google
  • Преодоление ограничений памяти: для исключения простоев процессора TPU 8i оснащен 288 ГБ высокоскоростной памяти и увеличенным втрое объемом встроенной SRAM (384 МБ). Это позволяет целиком разместить рабочий набор параметров модели непосредственно на кристалле.
  • Производительность с Axion: количество физических ядер на сервере было удвоено благодаря переходу на собственные ARM-процессоры Axion. Использование архитектуры NUMA позволило добиться оптимальной изоляции ресурсов и высочайшей скорости обработки.
  • Оптимизация для архитектур MoE: для эффективной работы «смешанных экспертных» моделей (MoE) пропускная способность межсетевого взаимодействия (ICI) удвоена до 19,2 Тбит/с. Новая архитектура Boardfly сокращает диаметр сети вдвое, обеспечивая слаженную работу всех компонентов системы с минимальными задержками.
  • Минимизация задержек: встроенный блок ускорения коллективных вычислений (CAE) берет на себя рутинные глобальные операции, уменьшая внутренние задержки на кристалле в 5 раз.
 

Источник: iXBT

Читайте также