Искусственный интеллект научился устранять свои ошибки: Meta представила открытый фреймворк LlamaFirewall для защиты моделей от уязвимостей и вредоносного ПО

2 Май в 07:46

Meta* представила LlamaFirewall — открытый фреймворк, созданный для защиты приложений на базе крупных языковых моделей (LLM) от современных киберугроз. Это решение, размещённое на GitHub, объединяет три уровня безопасности: PromptGuard 2, Agent Alignment Checks и CodeShield, что позволяет разработчикам внедрять комплексную защиту для чат-ботов и автономных агентов.

Основой фреймворка является PromptGuard 2, который в режиме реального времени анализирует пользовательские запросы, выявляя прямые атаки через инъекции промптов и попытки обхода ограничений модели. Второй компонент, Agent Alignment Checks, контролирует логику функционирования автономных агентов, предотвращая перехват задач и косвенные инъекции. Третий элемент, CodeShield, выступает в роли статического анализатора кода, блокируя создание небезопасных или вредоносных скриптов.

Искусственный интеллект научился устранять свои ошибки: Meta представила открытый фреймворк LlamaFirewall для защиты моделей от уязвимостей и вредоносного ПО — Иллюстрация: Leonardo

«Архитектура LlamaFirewall обладает модульностью, что позволяет интегрировать уровни защиты от этапа обработки входных данных до окончательных действий системы», — рассказали в Meta.

Одновременно с этим, компания обновила инструменты LlamaGuard и CyberSecEval. Обновлённая версия CyberSecEval 4 теперь включает в себя бенчмарк AutoPatchBench для оценки способности ИИ-агентов автоматически устранять уязвимости в коде на C/C++, обнаруженные методом фаззинга. «AutoPatchBench стандартизирует процесс тестирования ИИ-инструментов, что поможет в определении их эффективности в исправлении багов», — подчеркнули разработчики.

Для поддержки сообщества Meta инициировала программу Llama for Defenders, предоставляя партнёрам ранний доступ к экспериментальным и эксклюзивным ИИ-решениям. Основное внимание уделено борьбе с мошенничеством: от выявления фишинговых атак до обнаружения поддельного контента и сценариев, в которых злоумышленники используют генеративный ИИ.

Значительное внимание привлекла новая технология WhatsApp — Private Processing, которая обеспечивает обработку пользовательских запросов с помощью ИИ в изолированной среде без передачи данных на сторонние серверы.

* Компания Meta (Facebook и Instagram) признана экстремистской и запрещена на территории России

Источник: iXBT

Искусственный интеллект научился устранять свои ошибки: Meta представила открытый фреймворк LlamaFirewall для защиты моделей от уязвимостей и вредоносного ПО

Читайте также

Паблик ВКонтакте

Последние посты