Я запустил модель openai/gpt-oss-20b в формате MXFP4 GGUF на стандартном ноутбуке, лишенном дискретной видеокарты, опираясь исключительно на возможности центрального процессора, встроенного графического ядра Radeon 780M и общей оперативной памяти.
Тестирование проводилось на ASUS Vivobook S 16 M3607HA. Конкретная модель указана не для рекламы, а для обеспечения верифицируемости эксперимента, поскольку критически важными параметрами являются 32 GB памяти DDR5 5600, процессор Ryzen 7 260 и использование общей памяти графическим ядром Radeon 780M.
Ключевой прикладной вопрос заключался в следующем: целесообразно ли использовать 20B-модель локально на ноутбуке с 32 GB RAM, не имея при этом мощного GPU?
Сразу уточню: это не строгое научное исследование, а пользовательский разбор (case study) с конкретной конфигурацией ПО (LM Studio), реалистичными сценариями запросов и мониторингом через системный диспетчер задач Windows.
Краткие итоги
-
Модель функционирует при установленных значениях Context Length 16384, 32768 и 65536.
-
Скорость генерации текста варьируется от 8,05 до 10,63 токенов в секунду.
-
Усредненная производительность составляет около 9 токенов в секунду.
-
Основным «бутылочным горлышком» выступает объем RAM, а не вычислительные мощности процессора или встроенной графики.
-
Потребление оперативной памяти достигает пиковых значений: 27,6 GB при 16384, 28,7 GB при 32768 и 30,0 GB при 65536 токенах из доступных 31,3 GB.
-
Нагрузка на накопитель при генерации практически отсутствует: 0-1%.
-
NPU в процессе не задействовался.
-
Модель эффективно справилась с написанием Python-скрипта, хотя периодически допускала неточности в пояснениях и самоанализе.
-
Увеличение лимита контекста само по себе не повысило качество ответов.
Вердикт: запуск модели на 32 GB RAM возможен, но для комфортной работы лучше ограничиться значением 16384 или 32768. Режим 65536 вполне рабочий, однако оставляет критически малый запас свободной памяти для повседневных задач.
Целевая аудитория
Материал будет полезен тем, кто раздумывает над целесообразностью использования локальных LLM на ноутбуках без дискретной видеокарты, особенно если ваше устройство оснащено современным процессором Ryzen, интегрированной графикой серии Radeon 780M / 760M / 890M, 32 GB RAM и работает на ОС Windows.
Не стоит экстраполировать эти показатели на любую схожую машину: влияние оказывают системы охлаждения, лимиты энергопотребления, версия BIOS и работа фоновых процессов. Относитесь к этому отчету как к отправной точке для собственных экспериментов.
Воспроизводимость эксперимента
Тесты выполнены на ASUS Vivobook S 16 M3607HA. Детализация железа необходима исключительно для чистоты эксперимента, так как индивидуальные настройки производителей могут ощутимо влиять на итоговые цифры.
Воспринимайте данный текст как практическое руководство по запуску тяжелой 20B модели на примере конкретной аппаратной конфигурации.
Конфигурация стенда
|
Компонент |
Характеристика |
|---|---|
|
Ноутбук |
ASUS Vivobook S 16 M3607HA |
|
CPU |
AMD Ryzen 7 260, 8 ядер / 16 потоков |
|
GPU |
AMD Radeon 780M (интегрированная, использует общую память) |
|
RAM |
32 GB DDR5 5600 |
|
Доступный объем RAM в Windows |
31,3 GB |
|
Накопитель |
NVMe 512 GB |
|
ОС |
Windows 11 |
|
Профиль производительности |
Максимальная производительность |
|
Питание |
От сети |
Radeon 780M не имеет выделенной видеопамяти и резервирует часть системной RAM, поэтому при работе LLM оперативная память делится между ОС, самой моделью и графической подсистемой.
Состояние системы до начала тестов:
|
Метрика |
Показатель |
|---|---|
|
CPU |
18% |
|
RAM |
5,7 / 31,3 GB |
|
Disk |
7% |
|
GPU |
7% (47°C) |
|
NPU |
0% |
Модель и настройки запуска
Использовалась модель:
openai/gpt-oss-20b MXFP4 GGUF
Программная среда:
LM Studio 0.4.16-1 x64
Основные параметры LM Studio:
|
Параметр |
Значение |
|---|---|
|
GPU Offload |
20 |
|
CPU Threads |
8 |
|
Evaluation Batch Size |
512 |
|
Physical Batch Size |
512 |
|
Max Concurrent Predictions |
1 |
|
Unified KV Cache |
Включен |
|
Offload KV Cache to GPU |
Выключен |
|
Keep Model in Memory |
Выключен |
В ходе тестов варьировался исключительно параметр Context Length (16384, 32768, 65536). Обратите внимание: это заданный лимит в настройках, а не фактическое заполнение токенами в рамках конкретного промпта.
Методология
Для каждой настройки Context Length выполнялась серия из трех сценариев:
Prompt 1: Проверка базовой скорости генерации и фактологической точности (составление таблицы данных, перечисление характеристик и контрольных маркеров).
Prompt 2: Практическая задача по написанию Python-скрипта для обработки объемных логов (несколько ГБ) с использованием потокового чтения, аргументов командной строки, без загрузки файла в оперативную память и без использования библиотеки pandas.
Prompt 3: Тест на удержание контекста и способность к самокритике: модель должна была воспроизвести маркеры из первого промпта и провести аудит своего программного решения.
Замеры
Из LM Studio извлекались данные по скорости (tok/sec), количеству токенов, задержке до первого токена (TTFT), а из диспетчера задач Windows — показатели нагрузки на подсистемы железа (CPU, RAM, GPU, Disk, температура).
Результаты по производительности
|
Context Length |
Prompt |
tok/sec |
Latency |
Использовано контекста |
|---|---|---|---|---|
|
16384 |
1 |
9,98 |
1,80 s |
11,9% |
|
16384 |
2 |
9,32 |
1,33 s |
21,9% |
|
16384 |
3 |
8,66 |
5,44 s |
28,2% |
|
32768 |
1 |
10,04 |
1,90 s |
6,3% |
|
32768 |
2 |
9,17 |
1,46 s |
12,6% |
|
32768 |
3 |
8,05 |
7,81 s |
18,2% |
|
65536 |
1 |
10,63 |
1,95 s |
2,0% |
|
65536 |
2 |
9,49 |
1,20 s |
5,0% |
|
65536 |
3 |
8,54 |
2,71 s |
7,3% |
Увеличение контекстного окна не привело к деградации скорости генерации — она осталась достаточно стабильной во всех сценариях.
Потребление ресурсов
|
Context Length |
Пик RAM |
Остаток RAM |
|---|---|---|
|
16384 |
27,6 GB |
~3,7 GB |
|
32768 |
28,7 GB |
~2,6 GB |
|
65536 |
30,0 GB |
~1,3 GB |
При росте лимита контекста ожидаемо растет и потребление оперативной памяти. На режиме 65536 система находится на грани физических возможностей 32-гигабайтной конфигурации.
Качественные выводы
Модель лучше всего проявила себя при Context Length 32768: здесь наблюдался оптимальный баланс между аккуратностью кода и способностью удерживать контекст. Режим 65536, несмотря на техническую работоспособность, не привнес качественных улучшений в ответы, зачастую делая код даже более примитивным.
Границы применимости
Такой сетап подходит для написания скриптов, объяснения кода, черновой документации и локального анализа данных без отправки информации в облако. Не рекомендуется использовать его для сверхдлинных диалогов с большими объемами данных, так как риск нехватки памяти (OOM) и своппинг на SSD станут критическими проблемами.
Итоговый вердикт
Запуск 20B-моделей на современных ноутбуках с 32 GB RAM и встроенной графикой — это реальный и вполне рабочий сценарий для неспешного программирования или интеллектуальной поддержки. Однако необходимо строго контролировать потребление оперативной памяти и всегда проводить верификацию результатов генерации, так как локальные модели такого класса склонны к «галлюцинациям» и логическим ошибкам.


