Похоже, что китайская фирма 01.ai совершила значительный прорыв в обучении крупных генеративных моделей искусственного интеллекта. По крайней мере, по заявлениям самой компании, это действительно так.
Кай-Фу Ли, основатель и управляющий компании, поделился, что его команда сумела обучить одну из ведущих моделей ИИ, применяя всего 2000 графических процессоров и потратив всего лишь 3 миллиона долларов.
Для сравнения, обучение модели GPT-4, по некоторым оценкам, осуществлялось с использованием множества ускорителей Nvidia H100 и потребовало затрат в размере 80-100 миллионов долларов, а на создание GPT-5 предположительно ушло около 1 миллиарда долларов.
На основании данных с сайта 01.ai, их модель Yi-Lightning занимает шестое место по уровню производительности согласно измерениям LMSIS в Университете Калифорнии в Беркли. Однако современные модели можно оценивать по множеству параметров, и пока информации недостаточно для детального анализа.
Даже если модель 01.ai не сможет стать полноправным конкурентом GPT-4, её результаты всё же впечатляют. Чтобы увеличить производительность, в компании 01.ai сконцентрировались на устранении узких мест в процессе вывода, создав многоуровневую систему кэширования и разработав специализированный механизм вывода для улучшения скорости и управления ресурсами. В итоге, затраты на вывод оказались значительно ниже, чем у других моделей: всего 10 центов за миллион токенов. Это примерно в 1/30 раза меньше типичной стоимости у аналогичных моделей соперников.
Любопытно, что эти достижения стали возможными во многом благодаря санкциям США, поскольку у компании было всего 2000 ускорителей, и они не могли приобрести большее количество.
Имея в распоряжении лишь 2000 графических процессоров, наша команда вынуждена была найти способы максимально эффективно их использовать.
Источник: iXBT