Насколько эффективна RTX 2080 Ti для задач машинного обучения? Анализируем результаты тестов

Насколько эффективна RTX 2080 Ti для задач машинного обучения? Анализируем результаты тестов
Когда NVIDIA представила видеокарты семейства GeForce® RTX™ 20 в 2018 году, стало ясно, что новые чипы с архитектурой NVIDIA Turing™ кардинально изменят подход к вычислениям. Благодаря множеству нововведений, новые видеокарты стали значительно производительнее предыдущего поколения. При этом GPU 20 серии поддерживают и работу новых технологий, которые анонсировали с выходом GeForce® RTX™ 30. Разберемся, какие видеокарты будут оптимальным выбором для ML-задач. Под катом — реальные примеры и результаты бенчмарков.

Используйте навигацию, если не хотите читать текст полностью:
Почему выбор пал на RTX™ 2080 Ti
Может, сэкономить и купить GTX™ 1080?
RTX™ 2080 Ti для ML-моделей: пример с Whisper
Тестирование на реальных задачах
Эффективность работы GPU с различными настройками
RTX™ 2080 Ti дешевле GTX™ 1080?
Заключение

Почему выбор пал на RTX™ 2080 Ti


RTX™ 2080 Ti — флагман 20 поколения, который выделяется на фоне остальных моделей линейки. Благодаря высокой производительности она подходит для инференса моделей, обработки больших объемов данных и решения профессиональных графических задач, таких как рендеринг или конвертация видео.

Сердце GeForce® RTX™ 2080 Ti — мощный графический процессор с 4352 ядрами CUDA и возможностью повышения частоты до 1635 МГц. В числе других особенностей модели:

  • архитектура NVIDIA Turing™,
  • 544 тензорных ядра,
  • 11 ГБ памяти GDDR6 с шириной шины 352 бит.


NVIDIA GeForce® RTX™ 2080 Ti. Источник.

Что касается флагманских видеокарт 30 поколения, они, безусловно, более производительны, однако их цена по-прежнему остается высокой. Стоимость на RTX™ 2080 Ti заметно уменьшилась с выходом новых поколений, что делает карту одним из лучших вариантов по соотношению цена/качество.

Может, сэкономить и купить GTX™ 1080?


Если вы ищете бюджетное решение, GTX™ 1080 по-прежнему справляется с базовыми задачами в ML, особенно с небольшими моделями и объемами данных. Мы подробно рассказывали о ней и изучали бенчмарки в отдельном обзоре.

Сравнение 1080 и 2080

  • GTX™ 1080 построена на архитектуре Pascal, в то время как RTX™ 2080 Ti — на архитектуре Turing™. Помимо прочего, последняя отличается поддержкой технологии трассировки и искусственного интеллекта.
  • У GeForce® RTX™ 2080 Ti больше ядер CUDA, выше частоты памяти и ядра, что обеспечивает лучшую производительность по сравнению с GTX™ 1080.
  • RTX™ 2080 Ti обладает большим объемом видеопамяти GDDR6, чем GTX™ 1080.
  • RTX™ 2080 Ti — более дорогой вариант по сравнению GTX™ 1080.
  • У GTX™ 1080 ниже энергопотребление.

Проведем тестирование

Возьмем три конфигурации облачных серверов с разными видеокартами и прогоним через GeekBench и AI-Benchmark.


Конфигурации облачных серверов для тестирования.

1. В панели управления переходим в раздел Облачная платформа, нажимаем Создать сервер.

2. Выбираем конфигурацию в пуле ru-7b: RTX™ 2080 Ti 8 ГБ, RAM 24 ГБ, 8 vCPU. Для примера: такая конфигурация будет стоить всего около 22 ₽/час. Точную стоимость можно узнать в конфигураторе облачных серверов.


3. Аналогично с предыдущим шагом, создаем сервер с A2000. По стоимости это ближайший конкурент


4. Создаем третий сервер — с GTX™ 1080 на борту.


5. Устанавливаем GeekBench и AI-Benchmark, запускаем тестирование. О том, как это сделать, можно узнать в документации Primate Labs и описании в PyPi.

Анализируем бенчмарки


AI-Benchmark
Рассмотрим ключевые результаты в AI-Benchmark.

GPU GTX™ 1080 A2000 RTX™ 2080 Ti
Device Inference Score 8506 9236 13916

Device Training Score 8114 9948 14306
Device AI Score 16620 19184 28222

Результаты сравнения конфигураций, AI-Benchmark.

Как и ожидалось, наиболее высокие показатели у RTX™ 2080 Ti. Далее — A2000 и GTX™ 1080. Рассмотрим результаты конфигураций покажут видеокарты в других задачах.

GeekBench
Отбираем значения и собираем в сводную таблицу:

GPU GTX™ 1080 A2000 RTX™ 2080 Ti
Background Blur 41779

36117
Face Detection 23845 24411 35729
Gaussian Blur 109727 85383 173454

Подробнее с результатами можно ознакомиться в онлайн-выгрузках: RTX™ 2080 Ti, GTX™ 1080 и A2000. Описания параметров можно найти в документации GeekBench.

GTX™ 1080 — действительно хорошая бюджетная видеокарта, однако стоит учитывать, что она уступает по характеристикам более дорогим оппонентам. Однако такой вывод мы можем сделать лишь по характеристикам и бенчмаркам, без опоры на реальные задачи. На практике аренда GTX™ 1080 может быть менее выгодной, чем, например, RTX™ 2080 Ti. Как и почему так может случиться — разберем на конкретном кейсе.

RTX™ 2080 Ti для ML-моделей: пример с Whisper


Whisper — популярная ML-модель с открытым исходным кодом, которая хорошо справляется с задачами распознавания речи. Однако важно учитывать, что ее производительность больше зависит от вычислительных возможностей GPU (выражается в tflops), чем от объема памяти. Это значит, что более дорогая видеокарта с большим количеством видеопамяти может не оправдать свою стоимость, если ее пропускная способность не будет полностью задействована.

Для оценки производительности можно использовать подход на основе стоимости одной минуты распознанного аудио. Например, вы тестируете модель на эталонном файле с известными характеристиками, а затем рассчитываете, сколько стоит обработка одного часа записи. Однако, чтобы получить более точные результаты, лучше использовать набор из реальных аудиофайлов с разным уровнем шума, длиной, количеством тишины и т. д. Такой метод позволяет учесть сценарии реального использования и прогнозировать затраты на обработку данных в долгосрочной перспективе.

Тонкости работы с Whisper

Одна из сложностей использования Whisper — настройка параметра batch, который влияет на производительность и скорость обработки. Его оптимальный размер приходится подбирать вручную, поскольку он зависит от объема доступной памяти GPU и особенностей модели. WhisperX, модификация Whisper, частично решает эту проблему, предлагая более удобные функции гибкой настройки параметров.

Тестирование на реальных задачах


Для проведения тестов выбрали инструмент nvitop. Среди плюсов последнего — информативный интерфейс, возможность мониторинга ресурсов, множество функций, API для разработки новых инструментов, а также встроенный инструмент CUDA Visible Devices Selection Tool для DL-исследований.

Тестирование решили проводить на задаче обработки аудиофайлов для автоматической транскрипции и сегментации с использованием библиотеки pyannote.audio. Задача включала:

  • загрузку аудиофайлов длиной 1-20 минут,
  • предобработку данных,
  • применение модели Wav2Vec2 для расшифровки аудио,
  • построение временной сегментации.

Тесты выполняли в контейнере с CUDA 11.8 и предустановленными инструментами для работы с моделями глубокого обучения. Видеокарты выбрали под разный бюджет: A100 (40 ГБ), A5000, Tesla® T4, GTX™ 1080 и RTX™ 2080 Ti.

Арендуйте профессиональные видеокарты со скидкой: −29% на NVIDIA A100 (40 ГБ) и −44% на NVIDIA A30. Подойдут для обучения нейросетей, решения сложных AI-вычислений, ускорения рабочих нагрузок и инференса.

A100 (40 ГБ)

Время выполнения: 4 мин., 31.083 сек.

Вывод nvitop:


Tesla® T4

Время выполнения: 10 мин., 9.154 сек.

Вывод nvitop:


GTX™ 1080

Для запуска стандартного теста памяти было недостаточно, поэтому пришлось уменьшить параметр batch до 4. Это ограничение влияло на максимальную длительность обработанного файла.

Время выполнения: 13 мин., 30.536 сек.

Вывод nvitop:


A5000

Время выполнения: 5 мин., 24.209 сек.

Вывод nvitop:


RTX™ 2080 Ti — лучшие результаты

Время выполнения: 4 мин., 30.674 сек.

Вывод nvitop:


Эффективность работы GPU с различными настройками


Batch size

  • Увеличение параметра batch на более мощных GPU не дает значительного ускорения. Вероятная причина — упор в вычислительную мощность карты (compute capacity). Для точного определения потребуется анализ с помощью профайлеров.
  • Уменьшение batch позволяет обрабатывать более длинные аудиофайлы на менее мощных видеокартах. Например, параметр 4 — позволяет обрабатывать аудио на GTX™ 1080, а параметр 16 — на RTX™ 2080 Ti.

Тип вычислений (compute type)

  • Использование различных типов данных (int8, float16, float32) влияет на время транскрибации и точность.
  • Основные работы осуществляли в формате float32 для достижения баланса.
  • На GTX™ 1080 использовали int8 из-за ограничений производительности.

Использование Triton Inference Platform с TensorRT

  • Асинхронная обработка запросов, увеличение общей производительности.
  • Ускорение последовательной обработки на картах уровня дата-центра (A5000, RTX™ 4090) примерно втрое.
  • Обработка нескольких потоков одновременно, но это требует значительных объемов видеопамяти (на RTX™ 2080 Ti доступно не более двух потоков).

Организация тестирования

Для быстрого тестирования производительности рекомендуем следующий подход:

  1. Создать Docker-образ с необходимым окружением.
  2. Настроить тесты для скачивания моделей и данных в общую папку.
  3. Выполнить снепшот диска с установленным окружением.
  4. Запускать тесты на разных конфигурациях GPU, используя снепшот.

Однако у сценария будут ограничения, если GPU распределены по разным зонам, что потребует ручной настройки виртуалок.

RTX™ 2080 Ti дешевле GTX™ 1080?


Приведем таблицу сравнительных характеристик.

GPU Время выполнения теста Время выполнения транскрибации (мин) Стоимость флейвора ₽/мин. Стоимость GPU ₽/час Стоимость транскрибации Количество минут аудио, которое распознается за минуту работы модели Количество минут, за которое можно транскрибировать миллион минут аудио Стоимость аренды ВМ для распознавания миллиона минут
Tesla® T4 10m9.154s 8,5 1,01 38,4 513 ₽ 10,8 92 838 93 581 ₽
RTX™ 2080 Ti 5m16.781s 3,6 0,71 17,2 155 ₽ 25,3 39 507 28 234 ₽
GTX™ 1080 13m30.536s 11,8 0,63 14,48 444 ₽ 7,7 129 572 81 069 ₽
A5000 5m24.209s 3,7 1,57 68,5 352 ₽ 24,5 40 862 64 139 ₽
A100 (40 ГБ) 4m31.083s 2,8 5,08 262,77 868 ₽ 32,1 31 171 158 244 ₽

RTX™ 2080 Ti — наиболее выгодный выбор. Видеокарта позволяет эффективно обрабатывать аудиофайлы средней длительности с batch size до 16. При этом стоимость обработки в пересчете на миллион минут аудио значительно ниже, чем у GTX™ 1080, и карта обеспечивает лучшую производительность.

GTX™ 1080 ограничена в обработке длительных файлов (памяти недостаточно для больших батчей). Критичный недостаток — высокие затраты на миллион минут аудио из-за низкой скорости. Если сэкономить и взять эту карту, то мы переплатим более чем вдвое.

Tesla® T4, A100 (40 ГБ), A5000 отличаются высокой скоростью, но их стоимость делает их менее выгодными для массовой обработки аудио, за исключением специализированных задач.

Заключение


Для массовой обработки аудио советуем выбирать RTX™ 2080 Ti: она обеспечивает оптимальное сочетание производительности и стоимости. Более мощные карты, такие как A5000 или A100 (40 ГБ), целесообразно использовать в задачах, требующих обработки больших объемов данных в кратчайшие сроки. Мы в Selectel предоставляем широкий выбор видеокарт в наличии для 3D-моделирования, рендеринга, машинного обучения, сложной аналитики и других задач.

Что вы думаете насчет 2080 Ti? Поделитесь опытом и мнением в комментариях!

 

Источник

Читайте также