Запуск локального инференса на недорогих ноутбуках

В середине 2025 года я приобрёл ноутбук Lenovo ThinkBook 14+ для рабочих задач. После релиза моделей gpt-oss я запустил локальный инференс облегчённой версии и был приятно удивлён результатами. Позднее я повторил испытания на двух своих других устройствах, а недавно на работе объединил коллег и расширил выборку ещё пятью ноутбуками.

Запуск локального инференса на недорогих ноутбуках

Локальный инференс оказался проще и доступнее, чем многие ожидают. Все подробности внутри, а также видеообзор на YouTube. Чтобы сразу перейти к цифрам, кликните сюда.

Инфраструктура

Для тестов я выбрал LM Studio — это наиболее оперативный и интуитивный способ проверки на Windows-ноутбуках. Конечно, существуют методы ускорения инференса через llama.cpp и решения вроде vLLM, а также оптимизации для Intel Arc через AI-Playground, OpenVINO, ipex-llm и OpenArc. С ними я ещё планирую познакомиться, так что буду рад вашим рекомендациям в комментариях.

Интерфейс LM Studio

Модель

В качестве тестовой модели использована gpt-oss-20b. Я применяю её в своей работе DevOps-инженера на RTX 3090 Ti и она демонстрирует стабильную эффективность даже в сложных задачах (см. первые минуты видео). Будучи MoE-моделью с ограниченным числом активных экспертов, она отлично подходит для ноутбучного inf-процесса. Версия 20 млрд параметров укладывается в 32 ГБ ОЗУ, тогда как 120b требует не менее 64 ГБ и работает с перебоями. Среди альтернатив на локальных ПК есть qwen3-30b-a3b, Qwen3-VL-30B, Ernie-4.5-21b и другие, но их я опробую позже.

Запросы

  1. Расскажи о себе — позволяет оценить скорость отклика на короткие промпты.
  2. Напиши полный код приложения рендера треугольника на Vulkan на Go — даёт представление о производительности при генерации длинного ответа.

Конфигурация запуска

Если в ноутбуке есть дискретная графика, в LM Studio я выставляю максимально возможное использование GPU (параметр 1), выгружаю слои экспертов на CPU (3) и ключи/значения (KV) на видеокарту (2). При отсутствии GPU оставляю всё по умолчанию.

Настройки инференса с GPU и без

Результаты тестов

Где была возможность задействовать GPU — я это сделал. В первой таблице указаны мои личные ноутбуки и скорость генерации токенов на тяжёлом запросе:

Модель CPU ОЗУ, ГБ Графика Токенов/с
Lenovo ThinkBook 14+ Intel Core Ultra 7 155H 32 Intel Arc 12
MACHENIKE Star-15C Intel Core i7-12700H 64 NVIDIA RTX 3050 Ti 4 ГБ 10
Lenovo Xiaoxin Pro AI 2024 Intel Core Ultra 5 125H 32 Intel Arc 9

Во второй таблице — результаты моих коллег, где тесты проводились на разных задачах:

Модель CPU ОЗУ, ГБ Графика Токенов/с
Lenovo Legion 5 AMD Ryzen 7 4800H 16 NVIDIA RTX 2060 14
ASUS ZenBook 14 Intel Core Ultra 9 285H + Intel Arc 32 17
ASUS TUF Gaming F15 Intel i7-11800H 64 NVIDIA RTX 3050 Ti 4 ГБ 14
Asus FX608 Tianxuan 6 Pro 16″ Intel Core Ultra 9 275HX 16 NVIDIA RTX 5060 8 ГБ 20
ASUS TUF Gaming A16 AMD Ryzen 5 7535HS 32 NVIDIA RTX 4050 6 ГБ 8
Генерация 12 токенов в секунду

Выводы

Эти испытания открыли мне глаза: ещё недавно локальный инференс крупных моделей выдавал всего несколько токенов в секунду, и приходилось ждать. С MoE-моделью удалось стабильно достигать ~13 токенов/с — сопоставимо со скоростью вдумчивого чтения. Главный урок — локальные ИИ-решения становятся реальной опцией для бюджетных потребительских устройств.

Локальный ИИ наконец доступен на недорогих ноутбуках.

Разумеется, ноутбучный инференс не конкурент кластеру из нескольких RTX 3090, где и скорость, и качество находятся на другом уровне:

Кластер RTX 3090

Я сам пока не перешёл на ноутбук для инференса — он всё ещё медленнее, чем хотелось бы. Но прогресс очевиден: стало быстрее и умнее.


Подписывайтесь на мой Telegram-канал — там я регулярно публикую обзоры экспериментов по локальному инференсу.

 

Источник

Читайте также