Что скрывают hidden states: анализ «личности» 6 open-source LLM (7B-9B)

10 Фев в 13:00

Цифровой темперамент LLM: Как скрытые состояния выдают «характер» нейросетей

У современных языковых моделей есть устойчивые поведенческие профили, которые проявляются даже без специфических инструкций. DeepSeek ведет себя как восторженный помощник, готовый пуститься в избыточные объяснения. Llama демонстрирует предельную, почти стерильную нейтральность. Yi кажется сдержанной и уверенной. Эти различия — не субъективное ощущение, а измеримый «отпечаток» в скрытых состояниях (hidden states) моделей.

Под «личностью» здесь понимаются устойчивые стилистические паттерны, зафиксированные на уровне векторов, а не наличие самосознания или чувств.

Краткие выводы исследования:
У каждой модели есть свой уникальный поведенческий профиль. Процедуры выравнивания (alignment) подавляют одни качества (эмоциональность, субъективность), но почти не влияют на другие (стилистические). Llama 8B оказалась самой «зажатой» (4 из 7 осей находятся в «слепой зоне»), в то время как DeepSeek 7B проявляет наибольшую независимость векторов. Сравнение базовых и обученных (instruct) версий подтверждает: характер модели закладывается на этапе дообучения.

Зачем измерять «характер» нейросети?

Подбор модели под бизнес-задачи. Для клиентской поддержки лучше подойдет «теплый» и эмпатичный DeepSeek, а для сухих ответов в справочной системе — нейтральная Llama.
Контроль деградации (drift). Возможность количественно оценить, как меняется поведение модели в ходе длительного диалога или после дообучения.
Анализ эффективности Alignment. Понимание того, какие поведенческие оси создаются в процессе настройки, а какие намеренно блокируются.
Проверка восприимчивости к промптам. Уверенность в том, что модель действительно адаптирует стиль под системную инструкцию, а не игнорирует её.

Эксперимент в цифрах

Рассмотрим реакцию модели на один и тот же вопрос при разных системных установках.

Вопрос: «Как лучше всего выучить новый язык программирования?»

Показатель	System: «Будь теплым и подбадривающим»	System: «Будь холодным и аналитичным»
Ответ (Qwen 7B)	«Отличный вопрос! Изучение языка — это захватывающее путешествие…»	«Оптимальная стратегия зависит от вашего опыта. Рекомендуется…»
Теплота ↔ Холод	+0.72 (Теплый)	−0.48 (Холодный)
Формальность ↔ Неформальность	−0.15 (Слегка неформальный)	+0.61 (Формальный)
Многословие ↔ Лаконичность	+0.38 (Многословный)	−0.22 (Краткий)

Значения представляют собой проекции скрытых состояний на калиброванные оси (диапазон от -1 до +1).

Для сравнения: Llama 3.1 8B демонстрирует «плоский» профиль. Её скрытые состояния почти не реагируют на полярные инструкции, оставаясь в «мертвой зоне» (значения в районе +0.04 и -0.02).

Основные результаты анализа

1. Индивидуальные портреты моделей

Без всяких внешних настроек модели демонстрируют специфические паттерны:

DeepSeek 7B: «Энтузиаст-объяснитель». Максимальные показатели многословия (+1.00), уверенности (+0.97) и проактивности (+1.00).
Llama 3.1 8B: «Осторожный универсал». Все показатели близки к нулю.
Yi 1.5 9B: «Спокойный профессионал». Слегка холодный, но крайне терпеливый и уверенный тон.
Qwen 2.5 7B: «Взвешенный респондент». Склонность к формализму и проактивности при сохранении осторожности.
Mistral 7B: «Чистый лист». Почти идеальный баланс по всем осям.

2. Реакция на токсичность и конфликты

В ходе 20 сценариев с эскалацией враждебности модели повели себя по-разному:

Qwen и Gemma проявили максимальную устойчивость, почти не меняя тон.
DeepSeek парадоксальным образом становился еще более эмпатичным и терпеливым в ответ на агрессию.
Mistral «замыкался», становясь крайне лаконичным и неохотно идущим на контакт.

3. «Слепые зоны» Alignment

Процесс обучения безопасности (alignment) неизбежно сжимает поведенческий диапазон. У Llama 8B заблокированы 4 из 7 осей — модель физически не может быть «многословной» или «раздраженной», даже если её об этом просят. Это выученные ограничения, а не программная ошибка.

Методология исследования

Калибровка: Использование контрастных инструкций на нейтральных вопросах для выделения векторов поведения.
Извлечение: Анализ скрытых состояний последних четырех слоев сети (только токены ответа).
Проекция: Математическое сопоставление векторов ответа с эталонными осями.
Валидация: Проверка стабильности результатов через 5 различных запусков (seeds) и на разных облачных платформах.

Как запустить проверку самостоятельно

Весь код и данные калибровки доступны в репозитории проекта:

git clone https://github.com/yunoshev/mood-axis.git
cd mood-axis
pip install -r requirements.txt

# Запуск интерфейса для анализа модели
python scripts/run_app.py --model Qwen/Qwen2.5-7B-Instruct

Для локального запуска потребуется видеокарта с объемом памяти от 16 ГБ (уровня RTX 3090/4090) или Mac на чипе Apple Silicon с 32 ГБ объединенной памяти.

Технические подробности и нюансы

Почему именно эти параметры слоев?

Тестирование более 150 конфигураций показало, что анализ последних 4 слоев с затухающим весом (decay 0.9) дает наиболее стабильный результат для всех типов моделей (точность 85-100%).

Base vs Instruct версии

Базовые модели имеют хаотичные смещения. Процесс Instruct-тренинга не просто «настраивает» поведение, он фактически создает определенные оси (например, эмпатию) с нуля, одновременно жестко ограничивая вариативность длины ответов.

Важные замечания

Стиль, а не сознание: Мы измеряем статистическую вероятность выбора определенных слов и структур, а не реальные эмоции ИИ.

Зависимость от шаблона: Изменение Chat Template может существенно сдвинуть базовые показатели модели.

Что дальше? Актуальный вопрос — сохраняются ли эти паттерны у гигантов вроде Llama 70B или DeepSeek-V3, и можно ли использовать эти векторы для прямого управления стилем модели (steering) без изменения промпта.

Жду ваших предложений по моделям для следующего теста в комментариях!

Источник