Корпорация Microsoft анонсировала две инновационные стратегии, направленные на поддержание контекстуальной целостности в больших языковых моделях (LLM). Первая разработка — PrivacyChecker — представляет собой модуль с открытым исходным кодом, выступающий в роли защитного барьера в процессе работы алгоритмов. Вторая — CI-CoT + CI-RL — является комплексным методом обучения, призванным привить моделям навыки оценки конфиденциальности данных.
В рамках данной парадигмы приватность трактуется как уместность передачи информации в конкретных социальных сценариях. Это подразумевает раскрытие исключительно тех сведений, которые жизненно необходимы для решения текущей задачи, например, при записи к специалисту. Исследователи Microsoft подчеркивают, что современные LLM зачастую игнорируют подобные нюансы, что ведет к утечкам чувствительной информации и снижает уровень доверия со стороны пользователей.
Первое решение ориентировано на верификацию данных в режиме реального времени. Этот защитный механизм анализирует информацию на различных этапах обработки запроса. Разработчики представили библиотеку PrivacyChecker, которая может выступать в качестве шлюза при взаимодействии с внешними сервисами, предотвращая несанкционированную передачу персональных данных сторонним инструментам.
Алгоритм работы PrivacyChecker достаточно прозрачен: система извлекает данные из пользовательского ввода, классифицирует их согласно критериям приватности и при необходимости внедряет в запрос специальные рекомендации. Это позволяет модели корректно обрабатывать выявленные конфиденциальные сведения. Примечательно, что PrivacyChecker является универсальным решением и совместим с уже существующими моделями без необходимости их переобучения.

Тестирование на бенчмарке PrivacyLens подтвердило эффективность инструмента: применение PrivacyChecker позволило сократить уровень утечек с 33,06% до 8,32% для модели GPT-4o и с 36,08% до 7,30% для DeepSeekR1, сохранив при этом высокую функциональность систем.
Второй подход Microsoft базируется на интеграции контекстуальной целостности через технику «цепочки рассуждений» (CI-CoT). Обычно этот метод применяется для улучшения когнитивных способностей ИИ, но здесь он используется для анализа норм раскрытия информации перед формированием ответа. Модель обучается самостоятельно определять, какие атрибуты критичны для выполнения запроса, а какие должны оставаться в тайне.
Несмотря на успех CI-CoT в минимизации утечек, метод иногда приводил к избыточной осторожности, скрывая даже необходимые данные. Для калибровки системы был внедрен этап обучения с подкреплением (CI-RL). Модель получает «поощрение» за выполнение задачи с соблюдением контекстуальных норм и «штраф» за неуместное разглашение сведений. Такой подход учит ИИ не только правильно формулировать ответ, но и критически оценивать состав включаемой информации.
Гибридная методика CI-CoT + CI-RL продемонстрировала впечатляющие результаты, обеспечив надежную защиту данных без ущерба для общей производительности и точности базовой модели.
Концепция контекстуальной целостности, активно развиваемая Google DeepMind и Microsoft, переосмысляет приватность. В этой системе координат она рассматривается не как абсолютное право на секретность, а как «гармоничное распределение информационных потоков в строгом соответствии с социальными нормами».
Источник: iXBT



