В условиях острой конкуренции за каждого пользователя стриминговые платформы, вещатели и операторы стремятся обеспечить максимально высокое качество видеоконтента на всех типах устройств и задействуют с этой целью разные системы контроля качества видео. Многие из таких систем в качестве инструмента используют объективные метрики. Опыт взаимодействия с клиентами в сфере контроля качества видео показывает, что наиболее широко используемыми и востребованными являются метрики PSNR, SSIM и VMAF.
Видеопотоки проходят множество этапов транскодирования на пути от правообладателя к конечному зрителю (Рисунок 1). Каждый этап сжатия приводит к потере части данных и снижению качества, а погоня за низкими битрейтами ведет к появлению нежелательных артефактов сжатия. В связи с этим возникает необходимость в использовании инструментов для контроля качества видео.
Обычно метрики применяют при настройке или сравнении энкодеров/транскодеров, а также при контроле качества передаваемого сигнала. Принцип работы любой объективной метрики сводится к подсчету количественной разности между перекодированной и эталонной видеопоследовательностями. Другими словами, результирующее значение характеризует лишь количественное отличие от оригинала без оценки его качества в привычном понимании. С одной стороны, в этом выражается объективность, но с другой стороны, встает вопрос интерпретации полученных результатов. В данной статье представлена качественная интерпретация количественных значений метрик.
Методика
Конфигурации испытания
Была проведена серия экспериментов для определения качественных диапазонов значений метрик. В процессе испытаний применялся метод с двумя источниками воздействия и с использованием шкалы искажений (DSIS) [1]. Респондентам демонстрировались пары: эталон и испытательный образец изображения. Каждая пара демонстрировалась дважды, после чего респондентов просили оценить второй образец относительно первого, при этом участники исследования не знали значения метрик демонстрируемых образцов. Длительность сеанса не превышала 30 минут. Схема испытания приведена на рисунке 2.
Субъективные оценки выставлялись по пятибалльной шкале искажений, где 5 — искажения незаметны, 4 — заметны, но не раздражают, 3 — слегка раздражают, 2 — раздражают, 1 — очень раздражают. Затем каждому испытательному образцу была выставлена средняя арифметическая субъективная оценка респондентов, подсчитано стандартное отклонение и доверительный интервал.
Материалы испытаний
Было отобрано 19 YUV видеопоследовательностей с глубиной цвета 8-бит, цветовой субдискретизацией 4:2:0, разрешением 1920х1080 пикселей. Исходные видеофайлы были взяты с ресурсов Xiph.org и Ultravideo.fi [2, 3]. Выборка включила в себя материалы с разным уровнем динамичности (динамичные, средне-динамичные, статичные сцены) и сложностью движения (вращательные движения, движение воды и т.д.) (Рисунок 3).
Каждый экземпляр был сжат в 15 вариантов качества. Всего было подготовлено 285 видеопоследовательностей в формате AVC/H.264, с глубиной цвета 8-бит, цветовой субдискретизацией 4:2:0, разрешением 1920х1080 пикселей, фреймрейтом 25 кадров в секунду, прогрессивной разверткой и длительностью 10 с. Для каждого образца были подсчитаны метрики: PSNR, SSIM, VMAF, VQM, Delta, MSAD, MSE, NQI и APSNR с помощью инструмента Elecard StreamEye Studio — Video Quality Estimator [4, 5].
Источник изображения
Для вывода изображений использовался типовой телевизор Samsung UE40J6200AU, с диагональю 40, разрешением 1920х1080 пикселей. Использовались стандартные настройки яркости и контраста. Функции по улучшению выводимого изображения были намеренно отключены. Минимальное расстояние от стенда до респондентов составило 1,7 м.
Респонденты
В исследовании приняло участие 30 человек — это сотрудники компании ElecardElecard, 60% мужчины, 40% женщины. Соотношение обычных наблюдателей к экспертам составило 50 к 50%.
Результаты исследования
PSNR — Пиковое отношение сигнал/шум. PSNR определяет уровень искажений при сжатии и включает подсчет среднеквадратичной ошибки (MSE). Диапазон принимаемых значений от 0 до 100, измеряется в логарифмической шкале в децибелах. Чем выше значение, тем больше деталей осталось в видеопоследовательности после сжатия и, следовательно, выше качество.
PSNR — общеизвестная простая метрика, не требующая сложных вычислений, однако, разные исследования показывают невысокую корреляцию между значениями метрики и физиологическим человеческим восприятием [6].
PSNR физически показывает, в каком из испытуемых вариантов осталось больше деталей и меньше шумов. Поэтому PSNR активно применяется для реализации задач, связанных с настройкой, оптимизацией и сравнением энкодеров/транскодеров. В частности, если необходимо оперативно определить, какой из энкодеров/транскодеров обеспечивает более высокое качество кодирования или при каком наборе настроек энкодера/транскодера в видеопоследовательности осталось больше деталей.
SSIM — метрика оценки качества изображения по трем критериям: яркость, контрастность и структура [7]. Принимает значения от 0 до 1, при этом чем выше значение, тем ниже искажения изображения и выше качество. По сравнению с PSNR, SSIM требует больше вычислительных ресурсов. SSIM — одна из первых успешных метрик, которая наиболее точно соответствует человеческому восприятию изображения, что подтверждается разными исследованиями. Поэтому SSIM используется при определении воспринимаемого качества, например, при подтверждении удовлетворительного качества при вещании и тд. SSIM также применяется в дополнение к PSNR.
VMAF Video Multi-Method Assessment Fusion [8] — метрика оценки воспринимаемого качества изображения. Была опубликована в 2016 году, сочетает в себе сразу несколько разных метрик, оценивающих точность визуальной информации, аддитивные искажения и движения. VMAF — одна из первых метрик, при реализации которой было задействовано машинное обучение. Разработано несколько моделей, учитывающих разрешение, расстояние до объекта, (например, при анализе изображений, предназначенных для мобильных телефонов), выделена модель “VMAF phone”.
Исследования разных авторов показывают высокую корреляцию между метрикой и физиологическим восприятием изображения. Однако метрика достаточно требовательна к вычислительным ресурсам. Время расчета VMAF может превышать длительность подсчета PSNR в 6-12 раз.
VQM — показатель измерения эффектов искажения видео. Метрика достаточно спорная относительно корреляции с субъективными оценками зрителей. Алгоритм выполняет операции над коэффициентами косинусного преобразования DCT. Значение 0 отражает полную идентичность видеопоследовательностей и самое высокое качество видео. Чем выше значение метрики, тем больше разница и хуже качество.
DELTA — значение метрики показывает различия компонентов цветности. Метрика используется для тестирования кодеков и фильтров. DELTA менее репрезентативна для оценки качества, подходит для детектирования разницы в яркости. Для 8-битых видеопоследовательностей значения варьируются от -255 до 255, при этом чем выше значение метрики, тем больше выявлено отличий. Значение 0 отражает полную идентичность видеопоследовательностей.
MSAD — рассчитывается как DELTA, за одним исключением, разница берется по модулю. Значение 0 отражает полную идентичность видеопоследовательностей, максимальная разница соответствует значению 255 для 8-битых видеопоследовательностей.
MSE — простейшая метрика, отражающая среднеквадратичную ошибку. Значение 0 отражает полную идентичность видеопоследовательностей, максимальная разница соответствует значению 65025 при 8-битной глубине цвета.
NQI — метрика, предназначенная для оценки качества видео путем объединения трех компонентов: потери корреляции, искажения яркости и контрастности. Диапазон значений колеблется от 0 до 1. Чем ниже значение, тем хуже качество.
Заключение
Стоит отметить, что не существует единой универсальной объективной метрики, подходящей для решения любых задач. Эффективность любой метрики и ее корреляция с восприятием качества пользователем так или иначе зависят от динамичности содержания видео, сложности сцены сжатия и качества эталонной видеопоследовательности. Материалы исследования были подобраны таким образом, чтобы интерпретация значений отражала качество разных вариантов видеопотоков.
Источники
- Рекомендация МСЭ-R BT.500-14 (10/2019) Методики субъективной оценки качества телевизионных изображений https://www.itu.int/dms_pubrec/itu-r/rec/bt/R-REC-BT.500-14-201910-I!!PDF-R.pdf
- Xiph.org Video Test Media https://media.xiph.org/video/derf/
- Ultra Video Group Dataset http://ultravideo.fi/#testsequences
- Elecard StreamEye Studio — Набор приложений для профессионального анализа качества видеоматериала и обнаружения ошибок в закодированном потоке для дальнейшей оптимизации сжатия видео и проверки соответствия стандартам.
- Elecard Video Quality Estimator — Профессиональное приложение для анализа качества видео с помощью объективных метрик
- Janusz Klink, Tadeus Uhl “Video Quality Assessment: Some Remarks on Selected Objective Metrics” https://ieeexplore.ieee.org/document/9238303
- Zhou Wang, Alan Conrad Bovik, Hamid Rahim Sheikh, Eero P. Simoncelli “Image Quality Assessment: From Error Visibility to Structural Similarity” IEEE transactions on image processing, vol. 13, no. 4, april 2004
- Toward A Practical Perceptual Video Quality Metric, Netflix Technology Blog https://netflixtechblog.com/toward-a-practical-perceptual-video-quality-metric-653f208b9652
Автор
Александр Круглов – ведущий инженер компании Elecard. Работает в сфере видеоанализа с 2018 года. Александр отвечает за работу с крупнейшими клиентами Elecard, такими как Netflix, Cisco, Walt Disney Studios и др.