В середине 2025 года я приобрёл ноутбук Lenovo ThinkBook 14+ для рабочих задач. После релиза моделей gpt-oss я запустил локальный инференс облегчённой версии и был приятно удивлён результатами. Позднее я повторил испытания на двух своих других устройствах, а недавно на работе объединил коллег и расширил выборку ещё пятью ноутбуками.

Локальный инференс оказался проще и доступнее, чем многие ожидают. Все подробности внутри, а также видеообзор на YouTube. Чтобы сразу перейти к цифрам, кликните сюда.
Инфраструктура
Для тестов я выбрал LM Studio — это наиболее оперативный и интуитивный способ проверки на Windows-ноутбуках. Конечно, существуют методы ускорения инференса через llama.cpp и решения вроде vLLM, а также оптимизации для Intel Arc через AI-Playground, OpenVINO, ipex-llm и OpenArc. С ними я ещё планирую познакомиться, так что буду рад вашим рекомендациям в комментариях.

Модель
В качестве тестовой модели использована gpt-oss-20b. Я применяю её в своей работе DevOps-инженера на RTX 3090 Ti и она демонстрирует стабильную эффективность даже в сложных задачах (см. первые минуты видео). Будучи MoE-моделью с ограниченным числом активных экспертов, она отлично подходит для ноутбучного inf-процесса. Версия 20 млрд параметров укладывается в 32 ГБ ОЗУ, тогда как 120b требует не менее 64 ГБ и работает с перебоями. Среди альтернатив на локальных ПК есть qwen3-30b-a3b, Qwen3-VL-30B, Ernie-4.5-21b и другие, но их я опробую позже.
Запросы
- Расскажи о себе — позволяет оценить скорость отклика на короткие промпты.
- Напиши полный код приложения рендера треугольника на Vulkan на Go — даёт представление о производительности при генерации длинного ответа.
Конфигурация запуска
Если в ноутбуке есть дискретная графика, в LM Studio я выставляю максимально возможное использование GPU (параметр 1), выгружаю слои экспертов на CPU (3) и ключи/значения (KV) на видеокарту (2). При отсутствии GPU оставляю всё по умолчанию.

Результаты тестов
Где была возможность задействовать GPU — я это сделал. В первой таблице указаны мои личные ноутбуки и скорость генерации токенов на тяжёлом запросе:
| Модель | CPU | ОЗУ, ГБ | Графика | Токенов/с |
|---|---|---|---|---|
| Lenovo ThinkBook 14+ | Intel Core Ultra 7 155H | 32 | Intel Arc | 12 |
| MACHENIKE Star-15C | Intel Core i7-12700H | 64 | NVIDIA RTX 3050 Ti 4 ГБ | 10 |
| Lenovo Xiaoxin Pro AI 2024 | Intel Core Ultra 5 125H | 32 | Intel Arc | 9 |
Во второй таблице — результаты моих коллег, где тесты проводились на разных задачах:
| Модель | CPU | ОЗУ, ГБ | Графика | Токенов/с |
|---|---|---|---|---|
| Lenovo Legion 5 | AMD Ryzen 7 4800H | 16 | NVIDIA RTX 2060 | 14 |
| ASUS ZenBook 14 | Intel Core Ultra 9 285H + Intel Arc | 32 | — | 17 |
| ASUS TUF Gaming F15 | Intel i7-11800H | 64 | NVIDIA RTX 3050 Ti 4 ГБ | 14 |
| Asus FX608 Tianxuan 6 Pro 16″ | Intel Core Ultra 9 275HX | 16 | NVIDIA RTX 5060 8 ГБ | 20 |
| ASUS TUF Gaming A16 | AMD Ryzen 5 7535HS | 32 | NVIDIA RTX 4050 6 ГБ | 8 |

Выводы
Эти испытания открыли мне глаза: ещё недавно локальный инференс крупных моделей выдавал всего несколько токенов в секунду, и приходилось ждать. С MoE-моделью удалось стабильно достигать ~13 токенов/с — сопоставимо со скоростью вдумчивого чтения. Главный урок — локальные ИИ-решения становятся реальной опцией для бюджетных потребительских устройств.
Локальный ИИ наконец доступен на недорогих ноутбуках.
Разумеется, ноутбучный инференс не конкурент кластеру из нескольких RTX 3090, где и скорость, и качество находятся на другом уровне:

Я сам пока не перешёл на ноутбук для инференса — он всё ещё медленнее, чем хотелось бы. Но прогресс очевиден: стало быстрее и умнее.
Подписывайтесь на мой Telegram-канал — там я регулярно публикую обзоры экспериментов по локальному инференсу.



