В последние годы, несмотря на спрос на крупные языковые модели, всё больше компаний выбирают компактные аналоги, чтобы уменьшить потребление энергии и расходы на вычислительные мощности. В ответ на эту тенденцию, Google презентовала третью версию своей компактной языковой модели Gemma 3. Она сохраняет высокую производительность моделей Gemini 2.0, но адаптирована для работы на устройствах с ограниченными ресурсами, таких как смартфоны, ноутбуки и базовые серверы GPU.
Gemma 3 доступна в четырёх конфигурациях: с 1B, 4B, 12B и 27B параметрами. Главное нововведение — расширение контекстного окна до 128 тысяч токенов, которое раньше составляло 80 тысяч у Gemma 2. Это обеспечивает возможность обработки более значительных запросов и сложных сценариев. Модель поддерживает мультимодальный анализ текста, изображений и коротких видео, автоматизацию задач через функцию вызова, а также работу со 140 языками.

Для дальнейшего уменьшения вычислительной нагрузки, Google выпустила квантованные версии модели. Квантование, сокращающее точность численных значений в весах нейросети, действует как метод «сжатия» без утраты точности, что позволяет запускать Gemma 3 даже на одном GPU или TPU — это важно для локальных приложений.
По утверждению компании, Gemma 3 демонстрирует непревзойдённую производительность в своём классе, опережая такие LLM, как Llama-405B, DeepSeek-V3 и o3-mini. В тестах Chatbot Arena Elo версия 27B заняла вторую позицию после DeepSeek-R1, обойдя Mistral Large и Claude 3.7 Sonnet.
Интеграция Gemma 3 доступна разработчикам через инструменты, такие как Hugging Face Transformers, Ollama, PyTorch, JAX и Keras, а также через Google AI Studio, Hugging Face и Kaggle. Корпоративные клиенты могут получить доступ к модельному API через AI Studio.
Безопасности уделено особое внимание: в Gemma 3 интегрирован фильтр ShieldGemma 2 с 4B параметрами, предотвращающий генерацию контента с насилием, сексуальными сценами и другими запрещёнными элементами. Этот фильтр можно настроить под нужды пользователей. Google подчёркивает, что при обучении модели учитывались строгие правила обработки данных, настройки безопасности и тестирование на риски, включающее оценку возможности небезопасного использования.
После дебюта первой модели Gemma в феврале 2024 года интерес к компактным моделям резко возрос. Продукты, такие как Microsoft Phi-4 и Mistral Small 3, подтверждают спрос на ИИ, способный решать узкоспециализированные задачи без необходимости мощных LLM. При этом Gemma не является дистиллированной версией Gemini — она разработана на тех же данных и архитектуре, но без прямого переноса знаний от крупной модели.
Компании всё чаще выбирают SLM или дистиллированные версии LLM для специфических сценариев. Например, вместо использования мощной модели, такой как Claude 3.7 Sonnet для простого редактора кода, более рационально применять компактный аналог, который требует меньше ресурсов и снижает риск переобучения. С запуском Gemma 3 Google усиливает свои позиции в данном сегменте, предлагая гармонию между производительностью, стоимостью и безопасностью.
Источник: iXBT



