Meta* анонсировала Llama 4: ИИ обрабатывает 48 изображений одновременно, поддерживает 200 языков и превосходит GPT-4

Meta* объявила о выходе нового поколения мультимодальных моделей Llama 4, способных обрабатывать текстовую, визуальную и видеоинформацию на невиданных ранее объемах. Основные модели — Llama 4 Scout и Maverick — уже доступны для разработчиков на платформах llama.com и Hugging Face, а в ближайшее время они появятся в сервисах Meta AI (WhatsApp, Messenger, Instagram*). Ключевое отличие от предыдущих версий заключается в раннем объединении модальностей: модель учится одновременно осознавать текст и изображения, подобно тому как человек изучает материал через контекст.

Несмотря на свои компактные 17 миллиардов активных параметров (из 109 миллиардов общих), Llama 4 Scout способна анализировать до 48 изображений за один запрос и работает даже на одной видеокарте NVIDIA H100. Это обеспечивает ей преимущество в скорости перед Google Gemma 3 с ее 27 миллиардами параметров, однако версия для смартфонов пока недоступна. Контекстное окно Scout расширено до 10 миллионов токенов, что соответствует 20 часам видео или 5000 страниц текста. В тестах модель демонстрирует стопроцентную точность в поиске информации в огромных объемах данных и переводе редких языков с помощью методических материалов.


Meta* анонсировала Llama 4: ИИ обрабатывает 48 изображений одновременно, поддерживает 200 языков и превосходит GPT-4
Изображение: Meta*

Llama 4 Maverick (400 миллиардов общих параметров, из которых активно 17 миллиардов) заняла вторую позицию в рейтинге LMSYS Arena, набрав 1417 баллов ELO — как у GPT-4.5, но ниже, чем у Gemini 2.5 Pro. Модель предназначена для применения на серверах: она может обрабатывать 10 миллионов токенов контекста, решать логические задания и генерировать код. Для её работы достаточно одной DGX-ноды с восьмью GPU H100. Высокое качество объясняется дистилляцией от Llama 4 Behemoth — гигантского решения с 2 триллионами параметров, которое обучается на 32 тысячах видеокарт с точностью FP8. Инженеры Meta сократили 95% данных при постобучении модели, оставив только сложные STEM-задачи, тем самым ускорив обучение в 10 раз.

Обе модели обучены на 30 триллионах токенов — вдвое больше, чем у Llama 3. Датасет содержит информацию на 200 языках, причем для 100 языков собрано минимум по одному миллиарду примеров. Это открывает новые возможности для применения в регионах, где ранее ИИ не поддерживал местные диалекты. Для обеспечения безопасности реализованы механизмы Llama Guard (блокировка опасных запросов) и Prompt Guard (защита от инъекций), а частота отказов на спорные темы снижена с 7% до 2%.

29 апреля на LlamaCon Meta покажет ИИ с углубленным логическим мышлением. Как отметил Марк Цукерберг, это будут модели, которые не только дают ответы, но и размышляют. Объявление о Llama 4 — это шаг к созданию экосистемы, в которой узкоспециализированные «эксперты» заменят универсальные алгоритмы, что позволит сократить затраты на владение на 40%. Уже сейчас Scout и Maverick позволяют разрабатывать приложения для медицины, анализа больших данных и мультиязычного перевода — в тех областях, где раньше требовались облачные вычислительные мощности.

* Компания Meta (Facebook и Instagram) признана в России экстремистской и запрещена

 

Источник: iXBT

Читайте также