«Искусственный интеллект может стать лучшим или худшим, что когда-либо случалось с человечеством.» Стивен Хокинг
Привет всем! Сильно подогретая в последнее время тема шествия Искусственного Интеллекта (ИИ) по планете не только не угасает, но и каждый день привлекает всё больше внимания, не давая покоя никому и вызывая дискуссии и споры — от профессиональных до суеверных. LLM типа ChatGPT, Gemini, YandexGPT и другие модели совершенствуются, сервисы на их базе становятся всё более распространёнными и доступными, и появляется всё больше интересного, что можно сделать с их применением.
Уже появилось большое количество открытых обученных LLM моделей — запускай свой GPT на поводке, как говорится, и твори чудеса. Также, мне давно хотелось погонять как Стабильную (так и не очень) Диффузию. Кроме того, работа моя сейчас связана с программированием и обучением более простых сетей для предсказаний на временных рядах. Так что с моделями для экспериментов проблем нет, а вот с вычислительными ресурсами для обучения дела обстоят значительно хуже. Варианты с арендой серверов с видеокартами подходят для небольших краткосрочных экспериментов из-за высокой стоимости и, безусловно, могут быть вариантом для бизнеса, но для домашней экспериментальной лаборатории это не лучший выбор.
Короче говоря, решил я собрать свой ПК для запуска больших и малых, умных и не очень, но полностью искусственных моделей и вот что из этого получилось.
«Каша из топора»
Как в известной сказке, каша как бы вдруг появляется вокруг топора, так и ПК для машинного обучения появляется вокруг видеокарты. Выбор карты — самый важный шаг. Как я уже говорил, меня интересовали большие языковые модели, а это значит, что памяти много быть не может. Из доступных на рынке непрофессиональных игровых видеокарт — максимальный объем памяти, на который можно расчитывать — 24Gb.
Лидером сейчас является Nvidia RTX4090, которая выдает недостижимые другими результаты по производительности, имеет максимальный объем новой быстрой памяти GDDR6X, шустра как электровеник и красива как новый холодильник на распродаже. Обратной стороной всех ее выдающихся свойств является негуманная цена — ориентировочно от 200К рублей. Жаба, сидевшая внутри меня задушила мысли о совершенстве на этом этапе и заставила искать «трешку, но в Бутово». Рассматривал разные варианты, включая AMD, кстати, но все-таки они по целому ряду характеристик сильно уступают. В итоге выяснил что, несмотря на то, что Nvidia выпускает уже целую линейку серии 4ххх других карт с желаемым объемом памяти нет. Зато в предыдущем поколении 3xxx имеется вариант RTX3090. Эта карта, конечно уступает по производительности 4090, но существенно более доступна по цене и имеет 24Gb на борту.
А поскольку, я не гордый, и готов был на бу лошадку, обратил взоры свои на свежие объявления всем известного ресурса. И на первой же странице, бац, и звезды карты сошлись! MSI GeForce RTX 3090 Ti Gaming X Trio 24G всего за 80К рублей! То есть не просто RTX 3090, а еще и Ti. Тянуть не стал и мой топор для каши был у меня в руках уже в тот же день..
Под катом чуть-чуть про RTX3090Ti
Немного про главную звезду моей сборки — MSI GeForce RTX 3090 Ti Gaming X Trio 24G. Да, это не флагманская RTX 4090, но и стоит она значительно дешевле. Несмотря на то, что RTX 3090 Ti уступает новинке в производительности, она обладает рядом преимуществ, которые делают её отличным выбором для машинного обучения.
Почему RTX 3090 Ti?
-
24 ГБ видеопамяти: Позволяет работать с большими моделями и датасетами без необходимости прибегать к оптимизациям, снижающим качество.
-
Тензорные ядра: Версия Ti оснащена тензорными ядрами 3-го поколения, которые существенно ускоряют операции, связанные с машинным обучением и глубоким обучением.
-
Доступность: Цена 80 000 рублей (в моем случае) делает её более привлекательной по сравнению с RTX 4090, стоимость которой начинается от примерно 200 000 рублей.
Возможности RTX 3090 Ti
-
Машинное обучение: Тензорные ядра и большой объем памяти позволяют обучать сложные нейронные сети быстрее и эффективнее.
-
Генерация изображений: Работа со Stable Diffusion и другими моделями генерации изображений становится более комфортной и быстрой.
-
Обработка больших данных: Высокая пропускная способность и производительность ускоряют анализ и обработку больших объемов информации.
Сравнение NVIDIA GeForce RTX 3090 Ti и NVIDIA GeForce RTX 4090:
Характеристика |
NVIDIA GeForce RTX 3090 Ti |
NVIDIA GeForce RTX 4090 |
---|---|---|
Архитектура |
Ampere |
Ada Lovelace |
Техпроцесс |
8 нм |
5 нм |
Ядра CUDA |
10,752 |
16,384 |
Тензорные ядра |
336 |
512 |
RT-ядра |
84 |
128 |
Базовая частота |
1,560 МГц |
2,235 МГц |
Boost-частота |
1,860 МГц |
2,520 МГц |
Объем видеопамяти (VRAM) |
24 ГБ GDDR6X |
24 ГБ GDDR6X |
Шина памяти |
384-бит |
384-бит |
Пропускная способность памяти |
1,008 ГБ/с |
1,008 ГБ/с |
Энергопотребление (TDP) |
450 Вт |
450 Вт |
Рекомендованный БП |
850 Вт |
850 Вт |
Версия PCIe |
PCIe 4.0 |
PCIe 4.0 |
Тензорные ядра поколения |
3-е поколение |
4-е поколение |
Цена (на момент релиза) |
Около $1,999 |
Около $1,599 |
-
Обучение нейронных сетей: RTX 4090 демонстрирует прирост производительности от 50% до 100% по сравнению с RTX 3090 Ti в зависимости от конкретной модели и фреймворка.
-
Инференс моделей: Благодаря улучшенным тензорным ядрам, RTX 4090 обеспечивает более быстрый инференс, особенно при использовании новых форматов данных, таких как FP8.
Тензорные ядра и их роль:
-
RTX 3090 Ti оснащена 336 тензорными ядрами 3-го поколения, которые обеспечивают высокую производительность в операциях, связанных с машинным обучением и глубоким обучением.
-
RTX 4090 имеет 512 тензорных ядер 4-го поколения, которые предлагают еще более высокую производительность и энергоэффективность, а также новые функции, такие как ускорение алгоритмов Sparse Tensor и поддержка FP8.
Производительность в терафлопсах (FP16):
-
RTX 3090 Ti: ~321 терафлопс (с использованием тензорных ядер).
-
RTX 4090: ~661 терафлопс (с использованием тензорных ядер).
Графики производительности
Преимущества RTX 3090 Ti
-
Доступность: С выходом RTX 4090, цены на RTX 3090 Ti могут снижаться, делая ее более доступной.
-
Объем памяти: Такой же, как у RTX 4090, 24 ГБ VRAM, что критично для больших моделей.
-
Совместимость: Проверенная временем архитектура Ampere с широкой поддержкой в различных фреймворках и драйверах.
Преимущества RTX 4090
-
Увеличенное количество ядер: Больше CUDA, тензорных и RT-ядер.
-
Новые технологии: Улучшенные тензорные ядра 4-го поколения и RT-ядер 3-го поколения.
-
Энергоэффективность: Несмотря на аналогичное TDP, новая архитектура предлагает лучшую производительность на ватт.
Выводы
-
RTX 3090 Ti все еще является мощной видеокартой для задач машинного обучения, особенно благодаря 24 ГБ VRAM, что позволяет работать с большими моделями и датасетами.
-
RTX 4090 предлагает значительное увеличение производительности и энергоэффективности, что делает ее предпочтительным выбором для тех, кто хочет максимизировать скорость обучения и инференса моделей, имеет бюджет и находит повод задушить свою жабу, а не наоброт.
Главное — не пересолить
С видеокартой в руках оставалось добавить в кашу остальные компоненты, способные раскрыть её (карты) потенциал.
Процессор
Я выбрал AMD Ryzen 9 7950X3D. Давно хотел попробовать AMD cpu вместо Intel, вот и пришло время. 16 ядер и 32 потока обеспечат высокую производительность в многопоточных задачах, что идеально для машинного обучения. Цена в 59 406 рублей показалась мне оправданной и более привлекательной по сравнению с Intel так же как и термопакет, кстати.
Материнская плата
Для такого мощного дуэта процессора и видеокарты нужна надежная основа. Выбор пал на ASRock X670E STEEL LEGEND DDR5 за 30 293 рубля. Слово «легенда» в названии вселяло уверенность, а поддержка DDR5 и PCIe 5.0 обеспечивала задел на будущее. Очень понравилось, что на ней можно установить 4 SSD типа M2 и три из них имеют хорошие радиаторы.
Оперативная память
Объем оперативной памяти критичен при работе с большими моделями. Я остановился на G.Skill Flare X5 DDR5 5200 МГц 2×32 ГБ за 18 722 рубля. 64 ГБ памяти позволяют комфортно работать с большими датасетами и моделями. Позже можно будет расширить дло 128ГБ материнка позволяет.
Система охлаждения
После нескольких неудачных попыток с другими кулерами я выбрал Deepcool LS520 WH за 10 464 рубля. Этот жидкостный кулер не только эффективно охлаждает процессор, но и стильно выглядит в белом цвете, в корпус вошла отлично! Сразу скажу, что Deepcool LS720 в корпус не войдет.
Хранилище
Для хранения данных я выбрал SmartBuy 1 ТБ SSD Stream P16 за 8 283 рубля. Это NVMe SSD обеспечивает высокую скорость чтения и записи, что важно при работе с большими объёмами данных и цена его вполне скромная.
Блок питания
От блока требуется выдавать не менее 850Вт! Иначе карта даже не заведется. С учётом энергопотребления карты и других компонентов с небольшим запасом выбрал блок питания Deepcool PQ1000M 1000W 80+ Gold за 13 844 рубля. Со своей задачей он справится на все 100 и обеспечит стабильную работу системы.
Корпус
Выбрал be quiet! PURE BASE 500DX за 11 449 рублей. Уже брал такой корпус для другого ПК, красивый и удобный при монтаже компонент, с хорошей вентиляцией и тихой работой — то, что нужно для мощной системы.
Финальная сборка и стоимость
Вот итоговая таблица компонентов:
Компонент |
Модель |
Цена (рублей) |
---|---|---|
Видеокарта |
MSI GeForce RTX 3090 Ti Gaming X Trio 24G |
80 000 |
Процессор |
AMD Ryzen 9 7950X3D |
59 406 |
Материнская плата |
ASRock X670E STEEL LEGEND DDR5 |
30 293 |
Оперативная память |
G.Skill Flare X5 DDR5 5200 МГц 2×32 ГБ |
18 722 |
Охлаждение |
Deepcool LS520 WH |
10 464 |
Хранилище |
SmartBuy 1 ТБ SSD Stream P16 |
8 283 |
Блок питания |
Deepcool PQ1000M 1000W 80+ Gold |
13 844 |
Корпус |
be quiet! PURE BASE 500DX |
11 449 |
Итого |
|
232 461 |
Немного картинок
Заключение
В итоге я собрал мощный ПК, способный справиться с задачами машинного обучения, генерации изображений и другими ресурсоёмкими приложениями. Стоимость системы в итоге вышла сравнимой со стоимостью одной только RTX 4090.
Теперь я могу экспериментировать с большими языковыми моделями, обучать нейронные сети и работать с большими данными у себя дома. Надеюсь, мой опыт будет полезен тем, кто также задумывается о сборке собственного ПК для машинного обучения.
P.S. Если вы тоже стоите перед выбором видеокарты, помните, что не всегда стоит гнаться за флагманами. Иногда компромиссные решения могут стать отличным вариантом, особенно когда речь идёт о балансе между ценой и производительностью.
P.S.S. В продолжении приведу описание и скрипты для настройки Linux + CUDA.