Meta* представила LlamaFirewall — открытый фреймворк, созданный для защиты приложений на базе крупных языковых моделей (LLM) от современных киберугроз. Это решение, размещённое на GitHub, объединяет три уровня безопасности: PromptGuard 2, Agent Alignment Checks и CodeShield, что позволяет разработчикам внедрять комплексную защиту для чат-ботов и автономных агентов.
Основой фреймворка является PromptGuard 2, который в режиме реального времени анализирует пользовательские запросы, выявляя прямые атаки через инъекции промптов и попытки обхода ограничений модели. Второй компонент, Agent Alignment Checks, контролирует логику функционирования автономных агентов, предотвращая перехват задач и косвенные инъекции. Третий элемент, CodeShield, выступает в роли статического анализатора кода, блокируя создание небезопасных или вредоносных скриптов.

«Архитектура LlamaFirewall обладает модульностью, что позволяет интегрировать уровни защиты от этапа обработки входных данных до окончательных действий системы», — рассказали в Meta.
Одновременно с этим, компания обновила инструменты LlamaGuard и CyberSecEval. Обновлённая версия CyberSecEval 4 теперь включает в себя бенчмарк AutoPatchBench для оценки способности ИИ-агентов автоматически устранять уязвимости в коде на C/C++, обнаруженные методом фаззинга. «AutoPatchBench стандартизирует процесс тестирования ИИ-инструментов, что поможет в определении их эффективности в исправлении багов», — подчеркнули разработчики.
Для поддержки сообщества Meta инициировала программу Llama for Defenders, предоставляя партнёрам ранний доступ к экспериментальным и эксклюзивным ИИ-решениям. Основное внимание уделено борьбе с мошенничеством: от выявления фишинговых атак до обнаружения поддельного контента и сценариев, в которых злоумышленники используют генеративный ИИ.
Значительное внимание привлекла новая технология WhatsApp — Private Processing, которая обеспечивает обработку пользовательских запросов с помощью ИИ в изолированной среде без передачи данных на сторонние серверы.
* Компания Meta (Facebook и Instagram) признана экстремистской и запрещена на территории России
Источник: iXBT


