В 2025 году объем рынка корпоративного ИИ-инференса достиг отметки в ~$100 млрд. Однако успех внедрения LLM в бизнес-процессы кроется не в выборе конкретной языковой модели, а в понимании фундаментальной разницы между двумя этапами её работы: Prefill и Decode. Пренебрежение этой архитектурной спецификой — критическая ошибка, способная завысить стоимость запроса в 10–50 раз.
Две фазы одного процесса
Инференс нейросети — это не монолитное действие, а тандем двух технологически разнородных стадий. Prefill (обработка промпта) характеризуется пиковой интенсивностью вычислений. В этот момент модель анализирует весь входной массив данных и формирует KV-кеш, максимально нагружая тензорные ядра GPU (до 90–95%).
На этапе Decode, когда начинается генерация ответа токен за токеном, характер нагрузки меняется: процесс становится последовательным и упирается в пропускную способность памяти (memory bandwidth). Как следствие, эффективность использования GPU падает до 15–40%.
Отсюда вытекает ошибочность «плоской» модели тарификации. Запрос с коротким промптом и длинным ответом потребляет ресурсы GPU совершенно иначе, чем длинный промпт с коротким ответом, даже если общее количество токенов в обоих случаях идентично.
Hardware-стратегия: выбор под конкретную задачу
Использование одного и того же «железа» для обеих фаз неэффективно. Рассмотрим ситуацию на рынке GPU:
NVIDIA H100 (80GB) — флагман стоимостью $25–35 тыс. Благодаря мощным тензорным ядрам и Transformer Engine, эти карты незаменимы для быстрого Prefill, но при Decode они простаивают, не имея возможности реализовать весь свой вычислительный потенциал.
NVIDIA L40S (стоимостью $8–12 тыс.) — менее производительная, но обладающая отличной пропускной способностью памяти, что сделало её стандартом для Decode-задач (занимает более 30% рынка инференса).
Облачные затраты также разнятся: использование H100 обходится от $2 до $13 в час, тогда как L40S — около $1.
Современные фреймворки, такие как vLLM, SGLang и TensorRT-LLM, позволяют разделять эти пулы: Prefill направляется на мощные H100, а интенсивный Decode — на бюджетные L40S. Такая дезагрегация оптимизирует инфраструктурные расходы на 15–40% и повышает общую пропускную способность системы до 6,4 раз.
Экономика токена и ценообразование
Диспропорция стоимости входных и выходных токенов у ведущих провайдеров отражает объективную неэффективность стадии Decode:
GPT-4o: $2.50 за 1 млн входных (Prefill) против $10.00 за выходные (Decode).
Claude 3.5 Sonnet: $3 за вход и $15 за выход.
Llama 3 70B: $0.23 за вход и $0.40 за выход.
DeepSeek R1: $0.55 за вход и $2.19 за выход.
Разрыв в 3–5 раз обусловлен тем, что Decode — самый затратный этап с точки зрения простоя GPU. Поэтому приложения, работающие с длинными диалогами при малом входящем контексте, обходятся бизнесу крайне дорого, тогда как обработка массивных документов (Prefill-heavy) оказывается значительно выгоднее.
Где искать максимальную эффективность
Лучший способ экономии — сокращение лишних вычислений. Использование префиксного кэширования позволяет хранить KV-кеш для повторяющихся системных инструкций или шаблонных данных. Это ускоряет время генерации первого токена (TTFT) до 75 раз и снижает энергопотребление в 200 раз.
Пример: компания, ежедневно обрабатывающая 300 отзывов, может тратить 1500 токенов на системный контекст в каждом запросе при полезной нагрузке в 100 токенов. Отсутствие кэширования в таком сценарии означает КПД транзакции в 6% и неоправданно высокие расходы на API.
Управление юнит-экономикой
Стоимость вычислений падает в 10 раз ежегодно, и чтобы не оказаться в финансовой ловушке, компаниям необходимо следовать правилам:
- Перейти от учета «средней цены токена» к детальной атрибуции GPU-времени: сколько ресурсов конкретно ушло на Prefill и сколько на Decode.
- Выстраивать гибридную инфраструктуру: высокопроизводительные GPU (H100/A100) для Prefill и энергоэффективные (L40S/L4) для Decode.
- Активно внедрять кэширование префиксов как инструмент, эквивалентный расширению серверного парка.
В 2026 году игнорирование различий между Prefill и Decode — это признак не технического долга, а управленческой некомпетентности. Экономика LLM перешла из стадии «магии» в область тонкой настройки гетерогенных вычислительных сред.


