Запуск модели openai/gpt-oss-20b MXFP4 GGUF на ноутбуке без видеокарты: тест производительности при 32 GB RAM

Я запустил модель openai/gpt-oss-20b в формате MXFP4 GGUF на стандартном ноутбуке, лишенном дискретной видеокарты, опираясь исключительно на возможности центрального процессора, встроенного графического ядра Radeon 780M и общей оперативной памяти.

Тестирование проводилось на ASUS Vivobook S 16 M3607HA. Конкретная модель указана не для рекламы, а для обеспечения верифицируемости эксперимента, поскольку критически важными параметрами являются 32 GB памяти DDR5 5600, процессор Ryzen 7 260 и использование общей памяти графическим ядром Radeon 780M.

Ключевой прикладной вопрос заключался в следующем: целесообразно ли использовать 20B-модель локально на ноутбуке с 32 GB RAM, не имея при этом мощного GPU?

Сразу уточню: это не строгое научное исследование, а пользовательский разбор (case study) с конкретной конфигурацией ПО (LM Studio), реалистичными сценариями запросов и мониторингом через системный диспетчер задач Windows.

Краткие итоги

  • Модель функционирует при установленных значениях Context Length 16384, 32768 и 65536.

  • Скорость генерации текста варьируется от 8,05 до 10,63 токенов в секунду.

  • Усредненная производительность составляет около 9 токенов в секунду.

  • Основным «бутылочным горлышком» выступает объем RAM, а не вычислительные мощности процессора или встроенной графики.

  • Потребление оперативной памяти достигает пиковых значений: 27,6 GB при 16384, 28,7 GB при 32768 и 30,0 GB при 65536 токенах из доступных 31,3 GB.

  • Нагрузка на накопитель при генерации практически отсутствует: 0-1%.

  • NPU в процессе не задействовался.

  • Модель эффективно справилась с написанием Python-скрипта, хотя периодически допускала неточности в пояснениях и самоанализе.

  • Увеличение лимита контекста само по себе не повысило качество ответов.

Вердикт: запуск модели на 32 GB RAM возможен, но для комфортной работы лучше ограничиться значением 16384 или 32768. Режим 65536 вполне рабочий, однако оставляет критически малый запас свободной памяти для повседневных задач.

Целевая аудитория

Материал будет полезен тем, кто раздумывает над целесообразностью использования локальных LLM на ноутбуках без дискретной видеокарты, особенно если ваше устройство оснащено современным процессором Ryzen, интегрированной графикой серии Radeon 780M / 760M / 890M, 32 GB RAM и работает на ОС Windows.

Не стоит экстраполировать эти показатели на любую схожую машину: влияние оказывают системы охлаждения, лимиты энергопотребления, версия BIOS и работа фоновых процессов. Относитесь к этому отчету как к отправной точке для собственных экспериментов.

Воспроизводимость эксперимента

Тесты выполнены на ASUS Vivobook S 16 M3607HA. Детализация железа необходима исключительно для чистоты эксперимента, так как индивидуальные настройки производителей могут ощутимо влиять на итоговые цифры.

Воспринимайте данный текст как практическое руководство по запуску тяжелой 20B модели на примере конкретной аппаратной конфигурации.

Конфигурация стенда

Компонент

Характеристика

Ноутбук

ASUS Vivobook S 16 M3607HA

CPU

AMD Ryzen 7 260, 8 ядер / 16 потоков

GPU

AMD Radeon 780M (интегрированная, использует общую память)

RAM

32 GB DDR5 5600

Доступный объем RAM в Windows

31,3 GB

Накопитель

NVMe 512 GB

ОС

Windows 11

Профиль производительности

Максимальная производительность

Питание

От сети

Radeon 780M не имеет выделенной видеопамяти и резервирует часть системной RAM, поэтому при работе LLM оперативная память делится между ОС, самой моделью и графической подсистемой.

Состояние системы до начала тестов:

Метрика

Показатель

CPU

18%

RAM

5,7 / 31,3 GB

Disk

7%

GPU

7% (47°C)

NPU

0%

Модель и настройки запуска

Использовалась модель:

openai/gpt-oss-20b MXFP4 GGUF

Программная среда:

LM Studio 0.4.16-1 x64

Основные параметры LM Studio:

Параметр

Значение

GPU Offload

20

CPU Threads

8

Evaluation Batch Size

512

Physical Batch Size

512

Max Concurrent Predictions

1

Unified KV Cache

Включен

Offload KV Cache to GPU

Выключен

Keep Model in Memory

Выключен

В ходе тестов варьировался исключительно параметр Context Length (16384, 32768, 65536). Обратите внимание: это заданный лимит в настройках, а не фактическое заполнение токенами в рамках конкретного промпта.

Методология

Для каждой настройки Context Length выполнялась серия из трех сценариев:

Prompt 1: Проверка базовой скорости генерации и фактологической точности (составление таблицы данных, перечисление характеристик и контрольных маркеров).

Prompt 2: Практическая задача по написанию Python-скрипта для обработки объемных логов (несколько ГБ) с использованием потокового чтения, аргументов командной строки, без загрузки файла в оперативную память и без использования библиотеки pandas.

Prompt 3: Тест на удержание контекста и способность к самокритике: модель должна была воспроизвести маркеры из первого промпта и провести аудит своего программного решения.

Замеры

Из LM Studio извлекались данные по скорости (tok/sec), количеству токенов, задержке до первого токена (TTFT), а из диспетчера задач Windows — показатели нагрузки на подсистемы железа (CPU, RAM, GPU, Disk, температура).

Результаты по производительности

Context Length

Prompt

tok/sec

Latency

Использовано контекста

16384

1

9,98

1,80 s

11,9%

16384

2

9,32

1,33 s

21,9%

16384

3

8,66

5,44 s

28,2%

32768

1

10,04

1,90 s

6,3%

32768

2

9,17

1,46 s

12,6%

32768

3

8,05

7,81 s

18,2%

65536

1

10,63

1,95 s

2,0%

65536

2

9,49

1,20 s

5,0%

65536

3

8,54

2,71 s

7,3%

Увеличение контекстного окна не привело к деградации скорости генерации — она осталась достаточно стабильной во всех сценариях.

Потребление ресурсов

Context Length

Пик RAM

Остаток RAM

16384

27,6 GB

~3,7 GB

32768

28,7 GB

~2,6 GB

65536

30,0 GB

~1,3 GB

При росте лимита контекста ожидаемо растет и потребление оперативной памяти. На режиме 65536 система находится на грани физических возможностей 32-гигабайтной конфигурации.

Качественные выводы

Модель лучше всего проявила себя при Context Length 32768: здесь наблюдался оптимальный баланс между аккуратностью кода и способностью удерживать контекст. Режим 65536, несмотря на техническую работоспособность, не привнес качественных улучшений в ответы, зачастую делая код даже более примитивным.

Границы применимости

Такой сетап подходит для написания скриптов, объяснения кода, черновой документации и локального анализа данных без отправки информации в облако. Не рекомендуется использовать его для сверхдлинных диалогов с большими объемами данных, так как риск нехватки памяти (OOM) и своппинг на SSD станут критическими проблемами.

Итоговый вердикт

Запуск 20B-моделей на современных ноутбуках с 32 GB RAM и встроенной графикой — это реальный и вполне рабочий сценарий для неспешного программирования или интеллектуальной поддержки. Однако необходимо строго контролировать потребление оперативной памяти и всегда проводить верификацию результатов генерации, так как локальные модели такого класса склонны к «галлюцинациям» и логическим ошибкам.

 

Источник

Читайте также