Apple в ИИ-гонке: мнимое поражение или скрытый триумф?

21 минута назад

Сегодня все внимание приковано к масштабной ИИ-гонке или же к дискуссиям о «пузыре» искусственного интеллекта и сроках его неизбежного краха.

В центре событий — ускорители от NVIDIA, дата-центры стоимостью в десятки миллиардов и колоссальные ресурсы на обучение нейросетей. В лидерах — OpenAI, Google, Claude и Microsoft.

Весь технологический мир затаив дыхание наблюдает за тем, как гиганты индустрии соревнуются в размерах своих моделей.

Об Apple в этом контексте вспоминают редко, а если и вспоминают, то чаще в скептическом тоне: «Apple безнадежно отстала». Siri воспринимается как архаизм. Реальных ИИ-инноваций не видно, а единственный заметный шаг — партнерство с Google для интеграции Gemini, которое к тому же постоянно откладывается.

И это всё? Неужели всё так однозначно?

Действительно ли Apple утратила актуальность только потому, что не закупает кластеры H100 и не тренирует собственные базовые модели? Неужели это просто компания, выпускающая качественное «железо» — ноутбуки, планшеты и дорогие смартфоны?

Кажется, мы упускаем из виду нечто принципиальное. Apple ведет игру по совершенно иным правилам. Они не вливают миллиарды в ИИ-инфраструктуру так, как это делают Meta, Google или Amazon. По крайней мере, не в классическом понимании этого процесса.

Пока NVIDIA стремилась к гигантизму, Apple шла по пути миниатюризации и оптимизации. И этот вектор развития может иметь куда более весомое значение, чем кажется на первый взгляд.

Проблема «автобуса»

Начнем с фундаментального изъяна в архитектуре современных вычислительных систем. И чипы NVIDIA не исключение.

Вопрос здесь не в чистой мощности процессора, а в скорости обмена данными с памятью — в пропускной способности шин.

В традиционных компьютерных архитектурах, на которых сегодня базируется большинство ИИ-вычислений, ресурсы памяти для CPU и GPU разделены на отдельные пулы.

Каждый раз при выполнении запроса на инференс данные вынуждены физически перемещаться по шине из оперативной памяти в видеопамять и обратно.

Это ведет к избыточному потреблению энергии и создает «бутылочное горлышко» производительности, которое невозможно расширить простым добавлением новых ядер GPU.

Это напоминает бесконечную перевозку вещей из одного здания в другое на медленном автобусе.

Apple элегантно решила эту проблему несколько лет назад, представив собственные чипы с унифицированной архитектурой памяти. Барьер между компонентами был ликвидирован полностью.

Больше никаких поездок на автобусе. Теперь всё необходимое находится и обрабатывается в одном пространстве.

Кстати, пока эксперты спорят о преимуществах облачных GPU перед локальными решениями, доступ к передовым нейросетям открыт уже сейчас. Платформа BotHub объединяет лучшие модели — GPT-4, Claude 3 и другие — в едином удобном интерфейсе. Тестируйте, сравнивайте и решайте свои задачи на любом устройстве, включая ваш Mac.

Для работы не нужен VPN, а оплата возможна российскими картами.

Переходите по ссылке, чтобы получить 300 000 бесплатных токенов для ваших первых задач и начните работу с нейросетями прямо сейчас!

В чем реальная сила унифицированной памяти

Процессоры серии M объединяют CPU, GPU и Neural Engine на одном кристалле, предоставляя им общий высокоскоростной доступ к памяти.

Данные не нужно копировать между разными сегментами. Все вычислительные блоки одновременно считывают и записывают информацию в единый пул памяти.

Это в корне меняет представление о том, на что способно локальное устройство.

Тот же Mac Studio с чипом серии M может самостоятельно запускать весьма тяжелые языковые модели с параметрами в несколько миллиардов.

Этой мощности достаточно для выполнения огромного спектра прикладных бизнес-задач.

Работает ли это молниеносно? Нет, облачные вычисления на кластерах H100, безусловно, быстрее.

Однако для большинства повседневных сценариев — так ли критична эта сверхскорость? И оправдывает ли она свою стоимость?

Neural Engine

Многие понимают базовые функции CPU и GPU, но о потенциале Neural Engine говорят незаслуженно мало. А ведь именно в нем кроется секрет эффективности Apple в работе с ИИ.

CPU — это мастер на все руки, решающий задачи последовательно. GPU параллельно обрабатывает тысячи простых операций. Но инференс нейросетей требует специфической нагрузки: матричного умножения. Это бесконечные циклы «умножить и сложить».

Neural Engine спроектирован исключительно под эти нужды. Он не претендует на универсальность, он жестко оптимизирован под тензорные вычисления. Блок Neural Engine в чипе M4 способен выполнять 38 триллионов операций в секунду, а в M5 нейронные ускорители интегрированы непосредственно в каждое графическое ядро.

Это качественно иной инженерный подход.

Экономика и энергоэффективность

Серверный GPU NVIDIA H100 потребляет под нагрузкой более 700 ватт. А что насчет Mac Studio с M4 Ultra?

Его энергопотребление в разы ниже.

При этом такой компьютер легко разместится на любом рабочем столе, в любой точке мира.

Если вы запускаете инференс в режиме реального времени — например, для автоматизации офисных процессов или обработки данных на периферии — разница в расходах на электроэнергию станет колоссальной уже через несколько месяцев.

M4 может тратить условные 400 джоулей на задачу, в то время как облачный GPU на ту же операцию сожжет в 10 раз больше ресурсов. В масштабах года непрерывной работы это выливается в огромную экономию.

Что же на самом деле выиграла Apple?

Вернемся к изначальному тезису: Apple проигрывает в гонке ИИ.

Так ли это на самом деле? Или они просто решают совершенно иную задачу?

Они не стали строить гигантские дата-центры и не пытались создать прямого конкурента H100. Вместо этого они решили проблему инференса для локальных систем и периферийных вычислений. Apple создала архитектуру, где память не становится «узким местом», где нейронные вычисления являются приоритетом первого уровня, и где модели, ранее требовавшие облачной инфраструктуры, теперь работают локально на вашем привычном оборудовании.

ИИ-индустрия навязывает мнение: чтобы быть игроком высшей лиги, нужно арендовать тысячи GPU-часов в облаке.

Чипы Apple серии M доказывают обратное. Для множества реальных, а не гипотетических сценариев — реально внедренных систем — локальный инференс на унифицированной памяти имеет колоссальный смысл. И с точки зрения экономики, и с точки зрения технологий.

Иная гонка, иной триумфатор

Разумеется, Apple Silicon не станет полной заменой облачным GPU.

Обучение масштабных моделей по-прежнему требует гигантских кластеров, а обслуживание миллионов пользователей в секунду невозможно без мощных дата-центров.

Но для этапа инференса Apple создала нечто уникальное.

Самая эффективная ИИ-инфраструктура для ваших конкретных задач, возможно, уже стоит у вас на столе. Это не поражение в гонке. Это участие в совершенно другом соревновании.

Итог

Apple не стремилась превзойти NVIDIA или Google на их поле.

Они решили иную задачу: сделать ИИ-инференс практичным, эффективным и экономически выгодным для конечного пользователя.

Унифицированная архитектура памяти может оказаться именно тем фактором, который позволит ИИ-системам приносить реальную пользу бизнесу и обычным людям.

Локальный ИИ — это простота и доступность.

Для этого Apple не нужны собственные облачные модели или фермы серверов. Им достаточно производить свои чипы и устройства.

Источник