DeepSeek V3.1: ИИ за $1 вместо $70 показывает результаты на уровне GPT-5 и Claude 4

Китайский стартап DeepSeek взбудоражил сообщество разработчиков искусственного интеллекта, презентовав модель DeepSeek V3.1. Решение насчитывает 685 миллиардов параметров и доступно в открытом доступе на платформе Hugging Face, что устраняет любые геополитические ограничения.

Первые испытания показали, что DeepSeek V3.1 выдаёт результаты на уровне моделей от OpenAI и Anthropic. На тесте Aider по генерации кода она набрала 71,6%, что выводит её в число лидеров отрасли.

Модель оперирует до 128 000 токенов контекста (примерно эквивалент 400 страницам текста) без потери скорости отклика. Поддержка точности от привычного BF16 до экспериментального FP8 позволяет разработчикам оптимизировать производительность под собственные аппаратные ресурсы. Главная инновация — «гибридная архитектура», объединяющая возможности чата, логического вывода и написания кода в одном ядре, тогда как предыдущие подходы часто вели к снижению общей эффективности.

Иллюстрация: Sora

В структуре модели выявлено четыре новых специализированных токена: «поисковые» для взаимодействия с веб-ресурсами в реальном времени и «рассуждающие» для проведения внутренних логических операций.

Релиз DeepSeek V3.1 состоялся после появления GPT-5 от OpenAI и Claude 4 от Anthropic. Мировое сообщество разработчиков встретило обновление с энтузиазмом.

 

Источник: iXBT

Читайте также