Запуск модели openai/gpt-oss-20b MXFP4 GGUF на ноутбуке без видеокарты: тест производительности при 32 GB RAM

43 минуты назад

Я запустил модель openai/gpt-oss-20b в формате MXFP4 GGUF на стандартном ноутбуке, лишенном дискретной видеокарты, опираясь исключительно на возможности центрального процессора, встроенного графического ядра Radeon 780M и общей оперативной памяти.

Тестирование проводилось на ASUS Vivobook S 16 M3607HA. Конкретная модель указана не для рекламы, а для обеспечения верифицируемости эксперимента, поскольку критически важными параметрами являются 32 GB памяти DDR5 5600, процессор Ryzen 7 260 и использование общей памяти графическим ядром Radeon 780M.

Ключевой прикладной вопрос заключался в следующем: целесообразно ли использовать 20B-модель локально на ноутбуке с 32 GB RAM, не имея при этом мощного GPU?

Сразу уточню: это не строгое научное исследование, а пользовательский разбор (case study) с конкретной конфигурацией ПО (LM Studio), реалистичными сценариями запросов и мониторингом через системный диспетчер задач Windows.

Краткие итоги

Модель функционирует при установленных значениях Context Length 16384, 32768 и 65536.
Скорость генерации текста варьируется от 8,05 до 10,63 токенов в секунду.
Усредненная производительность составляет около 9 токенов в секунду.
Основным «бутылочным горлышком» выступает объем RAM, а не вычислительные мощности процессора или встроенной графики.
Потребление оперативной памяти достигает пиковых значений: 27,6 GB при 16384, 28,7 GB при 32768 и 30,0 GB при 65536 токенах из доступных 31,3 GB.
Нагрузка на накопитель при генерации практически отсутствует: 0-1%.
NPU в процессе не задействовался.
Модель эффективно справилась с написанием Python-скрипта, хотя периодически допускала неточности в пояснениях и самоанализе.
Увеличение лимита контекста само по себе не повысило качество ответов.

Вердикт: запуск модели на 32 GB RAM возможен, но для комфортной работы лучше ограничиться значением 16384 или 32768. Режим 65536 вполне рабочий, однако оставляет критически малый запас свободной памяти для повседневных задач.

Целевая аудитория

Материал будет полезен тем, кто раздумывает над целесообразностью использования локальных LLM на ноутбуках без дискретной видеокарты, особенно если ваше устройство оснащено современным процессором Ryzen, интегрированной графикой серии Radeon 780M / 760M / 890M, 32 GB RAM и работает на ОС Windows.

Не стоит экстраполировать эти показатели на любую схожую машину: влияние оказывают системы охлаждения, лимиты энергопотребления, версия BIOS и работа фоновых процессов. Относитесь к этому отчету как к отправной точке для собственных экспериментов.

Воспроизводимость эксперимента

Тесты выполнены на ASUS Vivobook S 16 M3607HA. Детализация железа необходима исключительно для чистоты эксперимента, так как индивидуальные настройки производителей могут ощутимо влиять на итоговые цифры.

Воспринимайте данный текст как практическое руководство по запуску тяжелой 20B модели на примере конкретной аппаратной конфигурации.

Конфигурация стенда

Компонент	Характеристика
Ноутбук	ASUS Vivobook S 16 M3607HA
CPU	AMD Ryzen 7 260, 8 ядер / 16 потоков
GPU	AMD Radeon 780M (интегрированная, использует общую память)
RAM	32 GB DDR5 5600
Доступный объем RAM в Windows	31,3 GB
Накопитель	NVMe 512 GB
ОС	Windows 11
Профиль производительности	Максимальная производительность
Питание	От сети

Radeon 780M не имеет выделенной видеопамяти и резервирует часть системной RAM, поэтому при работе LLM оперативная память делится между ОС, самой моделью и графической подсистемой.

Состояние системы до начала тестов:

Метрика	Показатель
CPU	18%
RAM	5,7 / 31,3 GB
Disk	7%
GPU	7% (47°C)
NPU	0%

Модель и настройки запуска

Использовалась модель:

openai/gpt-oss-20b MXFP4 GGUF

Программная среда:

LM Studio 0.4.16-1 x64

Основные параметры LM Studio:

Параметр	Значение
GPU Offload	20
CPU Threads	8
Evaluation Batch Size	512
Physical Batch Size	512
Max Concurrent Predictions	1
Unified KV Cache	Включен
Offload KV Cache to GPU	Выключен
Keep Model in Memory	Выключен

В ходе тестов варьировался исключительно параметр Context Length (16384, 32768, 65536). Обратите внимание: это заданный лимит в настройках, а не фактическое заполнение токенами в рамках конкретного промпта.

Методология

Для каждой настройки Context Length выполнялась серия из трех сценариев:

Prompt 1: Проверка базовой скорости генерации и фактологической точности (составление таблицы данных, перечисление характеристик и контрольных маркеров).

Prompt 2: Практическая задача по написанию Python-скрипта для обработки объемных логов (несколько ГБ) с использованием потокового чтения, аргументов командной строки, без загрузки файла в оперативную память и без использования библиотеки pandas.

Prompt 3: Тест на удержание контекста и способность к самокритике: модель должна была воспроизвести маркеры из первого промпта и провести аудит своего программного решения.

Замеры

Из LM Studio извлекались данные по скорости (tok/sec), количеству токенов, задержке до первого токена (TTFT), а из диспетчера задач Windows — показатели нагрузки на подсистемы железа (CPU, RAM, GPU, Disk, температура).

Результаты по производительности

Context Length	Prompt	tok/sec	Latency	Использовано контекста
16384	1	9,98	1,80 s	11,9%
16384	2	9,32	1,33 s	21,9%
16384	3	8,66	5,44 s	28,2%
32768	1	10,04	1,90 s	6,3%
32768	2	9,17	1,46 s	12,6%
32768	3	8,05	7,81 s	18,2%
65536	1	10,63	1,95 s	2,0%
65536	2	9,49	1,20 s	5,0%
65536	3	8,54	2,71 s	7,3%

Увеличение контекстного окна не привело к деградации скорости генерации — она осталась достаточно стабильной во всех сценариях.

Потребление ресурсов

Context Length	Пик RAM	Остаток RAM
16384	27,6 GB	~3,7 GB
32768	28,7 GB	~2,6 GB
65536	30,0 GB	~1,3 GB

При росте лимита контекста ожидаемо растет и потребление оперативной памяти. На режиме 65536 система находится на грани физических возможностей 32-гигабайтной конфигурации.

Качественные выводы

Модель лучше всего проявила себя при Context Length 32768: здесь наблюдался оптимальный баланс между аккуратностью кода и способностью удерживать контекст. Режим 65536, несмотря на техническую работоспособность, не привнес качественных улучшений в ответы, зачастую делая код даже более примитивным.

Границы применимости

Такой сетап подходит для написания скриптов, объяснения кода, черновой документации и локального анализа данных без отправки информации в облако. Не рекомендуется использовать его для сверхдлинных диалогов с большими объемами данных, так как риск нехватки памяти (OOM) и своппинг на SSD станут критическими проблемами.

Итоговый вердикт

Запуск 20B-моделей на современных ноутбуках с 32 GB RAM и встроенной графикой — это реальный и вполне рабочий сценарий для неспешного программирования или интеллектуальной поддержки. Однако необходимо строго контролировать потребление оперативной памяти и всегда проводить верификацию результатов генерации, так как локальные модели такого класса склонны к «галлюцинациям» и логическим ошибкам.

Источник