Интеллект на ватт: представлена новая метрика для оценки эффективности локальных LLM-ускорителей

Стремительная популяризация больших языковых моделей (LLM) привела к колоссальной нагрузке на облачную инфраструктуру, что заставило индустрию искать альтернативные методы обработки данных. Группа исследователей представила инновационную метрику «интеллект на ватт» (IPW), которая позволяет комплексно оценить эффективность локальных систем, сопоставляя точность выполнения задач с энергозатратами. Данный подход стал универсальным мерилом для объективного сравнения производительности различных архитектур и аппаратных ускорителей.

В рамках масштабного тестирования ученые проанализировали работу более 20 локальных моделей на восьми аппаратных платформах, включая чипы от Nvidia, AMD и Apple. Исследование опиралось на массив из миллиона реальных пользовательских запросов, охватывающих логические рассуждения, проверку эрудиции и навыки общения. Выяснилось, что современные локальные решения успешно справляются с 88,7% задач, а их удельная эффективность (IPW) увеличилась в 5,3 раза в период с 2023 по 2025 год благодаря синергии алгоритмических улучшений и развития микроархитектуры.

Одним из центральных выводов работы стало подтверждение того, что потребительские ускорители, такие как Apple M4 Max, уже способны обеспечивать интерактивную скорость работы, хотя их энергоэффективность пока не достигла уровня серверных решений. В частности, специализированные системы Nvidia B200 и SambaNova SN40L демонстрируют преимущество в 40–78% над локальными устройствами. Тем не менее, интеграция локальных мощностей в гибридные схемы позволяет делегировать им до 71,3% всех запросов, сокращая суммарное энергопотребление на 60–80%.

Интеллект на ватт: представлена новая метрика для оценки эффективности локальных LLM-ускорителей

Иллюстрация: Nano Banana

Анализ также выявил, что локальные LLM наиболее эффективны в творческих и гуманитарных сценариях, где точность их ответов превышает 90%. В технически сложных дисциплинах, таких как архитектура и проектирование, результативность снижается до 68%, что указывает на необходимость дальнейшей оптимизации. Тем не менее, даже при таких показателях локальные системы способны существенно разгрузить облачные дата-центры, забирая на себя значительную часть повседневных задач.

Критически важным аспектом исследования стало внедрение алгоритмов интеллектуальной маршрутизации запросов. Оптимальное распределение нагрузки между персональным устройством и облаком позволяет достичь значительной экономии ресурсов без ущерба для качества контента. Например, при достижении 80% точности маршрутизации потребление энергии снижается на 64%, а операционные расходы — на 59%.

Кроме того, авторы подчеркивают значимость дальнейшего совершенствования персональных ускорителей. Несмотря на очевидный прогресс, облачные платформы сохраняют лидерство за счет узкоспециализированных аппаратных оптимизаций. Это создает мощный стимул для развития локального «железа», которое в ближайшем будущем сможет еще сильнее сократить разрыв в эффективности.

Полученные результаты подтверждают огромный потенциал локальных языковых моделей как полноценного дополнения к облачным сервисам. По мере эволюции нейросетевых архитектур и чипов эффективность децентрализованных вычислений будет только расти. Чтобы способствовать развитию отрасли, авторы исследования опубликовали в открытом доступе инструментарий для оценки метрики IPW, призывая сообщество к созданию более экономичных и интеллектуальных систем.

 

Источник: iXBT

Читайте также