Компания Apple объявила о партнёрстве с Nvidia для ускорения работы крупных языковых моделей (LLM) с использованием технологии с открытым исходным кодом под названием Recurrent Drafter (ReDrafter). Это сотрудничество нацелено на решение сложных вычислительных задач, связанных с авторегрессивной генерацией токенов, что играет ключевую роль в повышении производительности и уменьшении задержек в приложениях, использующих языковые модели в режиме реального времени.
ReDrafter, представленный Apple в ноябре 2024 года, применяет методику спекулятивного декодирования, совмещая рекуррентные нейронные сети (RNN) с поисковыми и динамическими методами, основанными на древовидном внимании. Согласно данным тестирования от Apple, данная методика позволяет генерировать токены в 2,7 раза быстрее по сравнению с традиционной авторегрессией.
Благодаря интеграции во фреймворк Nvidia TensorRT-LLM, ReDrafter расширяет свои возможности, обеспечивая более быстрое выполнение языковых моделей на графических процессорах Nvidia, широко используемых в промышленных приложениях. Для поддержки алгоритмов ReDrafter компания Nvidia внедрила новые операторы и переработала существующие в TensorRT-LLM, делая эту технологию доступной для разработчиков, стремящихся оптимизировать производительность больших моделей.
Помимо увеличения скорости, Apple утверждает, что ReDrafter способен также снижать задержки для пользователей при использовании меньшего количества GPU. Такая оптимизация не только уменьшает вычислительные затраты, но и снижает энергопотребление, что является важным фактором для организаций, работающих с искусственным интеллектом в широком масштабе.
Хотя изначально сотрудничество ориентировано на инфраструктуру Nvidia, в будущем аналогичные улучшения производительности могут быть адаптированы для конкурентных решений от AMD или Intel.
Представители Nvidia подчеркнули: «Это партнёрство сделало TensorRT-LLM более мощным и адаптивным, предоставляя разработчикам языковых моделей возможность создавать более сложные модели и быстро внедрять их с помощью TensorRT-LLM для достижения исключительной производительности на GPU от Nvidia. Новые возможности открывают захватывающие перспективы, и мы с нетерпением ожидаем появления следующего поколения передовых моделей, использующих возможности TensorRT-LLM, что станет шагом вперёд в улучшении работы языковых моделей».
Источник: iXBT