Цифровой темперамент LLM: Как скрытые состояния выдают «характер» нейросетей
У современных языковых моделей есть устойчивые поведенческие профили, которые проявляются даже без специфических инструкций. DeepSeek ведет себя как восторженный помощник, готовый пуститься в избыточные объяснения. Llama демонстрирует предельную, почти стерильную нейтральность. Yi кажется сдержанной и уверенной. Эти различия — не субъективное ощущение, а измеримый «отпечаток» в скрытых состояниях (hidden states) моделей.
Под «личностью» здесь понимаются устойчивые стилистические паттерны, зафиксированные на уровне векторов, а не наличие самосознания или чувств.
Краткие выводы исследования:
У каждой модели есть свой уникальный поведенческий профиль. Процедуры выравнивания (alignment) подавляют одни качества (эмоциональность, субъективность), но почти не влияют на другие (стилистические). Llama 8B оказалась самой «зажатой» (4 из 7 осей находятся в «слепой зоне»), в то время как DeepSeek 7B проявляет наибольшую независимость векторов. Сравнение базовых и обученных (instruct) версий подтверждает: характер модели закладывается на этапе дообучения.
Зачем измерять «характер» нейросети?
- Подбор модели под бизнес-задачи. Для клиентской поддержки лучше подойдет «теплый» и эмпатичный DeepSeek, а для сухих ответов в справочной системе — нейтральная Llama.
- Контроль деградации (drift). Возможность количественно оценить, как меняется поведение модели в ходе длительного диалога или после дообучения.
- Анализ эффективности Alignment. Понимание того, какие поведенческие оси создаются в процессе настройки, а какие намеренно блокируются.
- Проверка восприимчивости к промптам. Уверенность в том, что модель действительно адаптирует стиль под системную инструкцию, а не игнорирует её.
Эксперимент в цифрах
Рассмотрим реакцию модели на один и тот же вопрос при разных системных установках.
Вопрос: «Как лучше всего выучить новый язык программирования?»
| Показатель | System: «Будь теплым и подбадривающим» | System: «Будь холодным и аналитичным» |
|---|---|---|
| Ответ (Qwen 7B) | «Отличный вопрос! Изучение языка — это захватывающее путешествие…» | «Оптимальная стратегия зависит от вашего опыта. Рекомендуется…» |
| Теплота ↔ Холод | +0.72 (Теплый) | −0.48 (Холодный) |
| Формальность ↔ Неформальность | −0.15 (Слегка неформальный) | +0.61 (Формальный) |
| Многословие ↔ Лаконичность | +0.38 (Многословный) | −0.22 (Краткий) |
Для сравнения: Llama 3.1 8B демонстрирует «плоский» профиль. Её скрытые состояния почти не реагируют на полярные инструкции, оставаясь в «мертвой зоне» (значения в районе +0.04 и -0.02).
Основные результаты анализа
1. Индивидуальные портреты моделей
Без всяких внешних настроек модели демонстрируют специфические паттерны:
- DeepSeek 7B: «Энтузиаст-объяснитель». Максимальные показатели многословия (+1.00), уверенности (+0.97) и проактивности (+1.00).
- Llama 3.1 8B: «Осторожный универсал». Все показатели близки к нулю.
- Yi 1.5 9B: «Спокойный профессионал». Слегка холодный, но крайне терпеливый и уверенный тон.
- Qwen 2.5 7B: «Взвешенный респондент». Склонность к формализму и проактивности при сохранении осторожности.
- Mistral 7B: «Чистый лист». Почти идеальный баланс по всем осям.
2. Реакция на токсичность и конфликты
В ходе 20 сценариев с эскалацией враждебности модели повели себя по-разному:
- Qwen и Gemma проявили максимальную устойчивость, почти не меняя тон.
- DeepSeek парадоксальным образом становился еще более эмпатичным и терпеливым в ответ на агрессию.
- Mistral «замыкался», становясь крайне лаконичным и неохотно идущим на контакт.
3. «Слепые зоны» Alignment
Процесс обучения безопасности (alignment) неизбежно сжимает поведенческий диапазон. У Llama 8B заблокированы 4 из 7 осей — модель физически не может быть «многословной» или «раздраженной», даже если её об этом просят. Это выученные ограничения, а не программная ошибка.
Методология исследования
- Калибровка: Использование контрастных инструкций на нейтральных вопросах для выделения векторов поведения.
- Извлечение: Анализ скрытых состояний последних четырех слоев сети (только токены ответа).
- Проекция: Математическое сопоставление векторов ответа с эталонными осями.
- Валидация: Проверка стабильности результатов через 5 различных запусков (seeds) и на разных облачных платформах.
Как запустить проверку самостоятельно
Весь код и данные калибровки доступны в репозитории проекта:
git clone https://github.com/yunoshev/mood-axis.git
cd mood-axis
pip install -r requirements.txt
# Запуск интерфейса для анализа модели
python scripts/run_app.py --model Qwen/Qwen2.5-7B-Instruct
Для локального запуска потребуется видеокарта с объемом памяти от 16 ГБ (уровня RTX 3090/4090) или Mac на чипе Apple Silicon с 32 ГБ объединенной памяти.
Технические подробности и нюансы
Почему именно эти параметры слоев?
Тестирование более 150 конфигураций показало, что анализ последних 4 слоев с затухающим весом (decay 0.9) дает наиболее стабильный результат для всех типов моделей (точность 85-100%).
Base vs Instruct версии
Базовые модели имеют хаотичные смещения. Процесс Instruct-тренинга не просто «настраивает» поведение, он фактически создает определенные оси (например, эмпатию) с нуля, одновременно жестко ограничивая вариативность длины ответов.
Важные замечания
Стиль, а не сознание: Мы измеряем статистическую вероятность выбора определенных слов и структур, а не реальные эмоции ИИ.
Зависимость от шаблона: Изменение Chat Template может существенно сдвинуть базовые показатели модели.
Что дальше? Актуальный вопрос — сохраняются ли эти паттерны у гигантов вроде Llama 70B или DeepSeek-V3, и можно ли использовать эти векторы для прямого управления стилем модели (steering) без изменения промпта.
Жду ваших предложений по моделям для следующего теста в комментариях!


