Запуск локального инференса на недорогих ноутбуках

09.12.2025

В середине 2025 года я приобрёл ноутбук Lenovo ThinkBook 14+ для рабочих задач. После релиза моделей gpt-oss я запустил локальный инференс облегчённой версии и был приятно удивлён результатами. Позднее я повторил испытания на двух своих других устройствах, а недавно на работе объединил коллег и расширил выборку ещё пятью ноутбуками.

Запуск локального инференса на недорогих ноутбуках

Локальный инференс оказался проще и доступнее, чем многие ожидают. Все подробности внутри, а также видеообзор на YouTube. Чтобы сразу перейти к цифрам, кликните сюда.

Инфраструктура

Для тестов я выбрал LM Studio — это наиболее оперативный и интуитивный способ проверки на Windows-ноутбуках. Конечно, существуют методы ускорения инференса через llama.cpp и решения вроде vLLM, а также оптимизации для Intel Arc через AI-Playground, OpenVINO, ipex-llm и OpenArc. С ними я ещё планирую познакомиться, так что буду рад вашим рекомендациям в комментариях.

Модель

В качестве тестовой модели использована gpt-oss-20b. Я применяю её в своей работе DevOps-инженера на RTX 3090 Ti и она демонстрирует стабильную эффективность даже в сложных задачах (см. первые минуты видео). Будучи MoE-моделью с ограниченным числом активных экспертов, она отлично подходит для ноутбучного inf-процесса. Версия 20 млрд параметров укладывается в 32 ГБ ОЗУ, тогда как 120b требует не менее 64 ГБ и работает с перебоями. Среди альтернатив на локальных ПК есть qwen3-30b-a3b, Qwen3-VL-30B, Ernie-4.5-21b и другие, но их я опробую позже.

Запросы

Расскажи о себе — позволяет оценить скорость отклика на короткие промпты.
Напиши полный код приложения рендера треугольника на Vulkan на Go — даёт представление о производительности при генерации длинного ответа.

Конфигурация запуска

Если в ноутбуке есть дискретная графика, в LM Studio я выставляю максимально возможное использование GPU (параметр 1), выгружаю слои экспертов на CPU (3) и ключи/значения (KV) на видеокарту (2). При отсутствии GPU оставляю всё по умолчанию.

Результаты тестов

Где была возможность задействовать GPU — я это сделал. В первой таблице указаны мои личные ноутбуки и скорость генерации токенов на тяжёлом запросе:

Модель	CPU	ОЗУ, ГБ	Графика	Токенов/с
Lenovo ThinkBook 14+	Intel Core Ultra 7 155H	32	Intel Arc	12
MACHENIKE Star-15C	Intel Core i7-12700H	64	NVIDIA RTX 3050 Ti 4 ГБ	10
Lenovo Xiaoxin Pro AI 2024	Intel Core Ultra 5 125H	32	Intel Arc	9

Во второй таблице — результаты моих коллег, где тесты проводились на разных задачах:

Модель	CPU	ОЗУ, ГБ	Графика	Токенов/с
Lenovo Legion 5	AMD Ryzen 7 4800H	16	NVIDIA RTX 2060	14
ASUS ZenBook 14	Intel Core Ultra 9 285H + Intel Arc	32	—	17
ASUS TUF Gaming F15	Intel i7-11800H	64	NVIDIA RTX 3050 Ti 4 ГБ	14
Asus FX608 Tianxuan 6 Pro 16″	Intel Core Ultra 9 275HX	16	NVIDIA RTX 5060 8 ГБ	20
ASUS TUF Gaming A16	AMD Ryzen 5 7535HS	32	NVIDIA RTX 4050 6 ГБ	8

Выводы

Эти испытания открыли мне глаза: ещё недавно локальный инференс крупных моделей выдавал всего несколько токенов в секунду, и приходилось ждать. С MoE-моделью удалось стабильно достигать ~13 токенов/с — сопоставимо со скоростью вдумчивого чтения. Главный урок — локальные ИИ-решения становятся реальной опцией для бюджетных потребительских устройств.