Ивченко Александр Владимирович разработка и исследование


Download 1.55 Mb.
bet7/11
Sana17.06.2023
Hajmi1.55 Mb.
#1541313
TuriИсследование
1   2   3   4   5   6   7   8   9   10   11
Bog'liq
dip rus

Во второй главе проведен статистический анализ метрик и признаков набора данных Waterloo SQoE-III, оценен уровень ассоциации и P-уровень статистической значимости (не более 0.05). Для этого был проведен анализ применимости различных коэффициентов и выбраны непараметрические для оценки нелинейной зависимости, признанные научным сообществом коэффициенты корреляции Кендалла (KRCC), Спирмана (SRCC), H-тест Краскела – Уоллиса и коэффициент K . В работе представлена краткая справка по указанным методам.
Было произведено исследование стандартных метрик клиентской стороны, рекомендуемых DASH Industry Forum, позволившее отметить высокий уровень ассоциации – 0.3612 KRCC средневзвешенного битрейта, с учетом длительности воспроизведения каждого сегмента, при этом время начальной загрузки показало P-уровень значимости, равный 0.521. Отдельно были исследованы различные комбинации метрик, основанные на доли воспроизведении сегментов различного качества (рисунок 5).

Рисунок 5. Величина коэффициента корреляции Кендала со значением MOS, P-уровень значимости для доли воспроизведения на уровнях качестве (битрейте) от наименьшего 235
Кбит/с (уровень 1) до наивысшего 7000 Кбит/с (уровень 11)
Анализ графиков на рисунке 5 позволил выделить ряд статистически значимых признаков:
1. воспроизведение на минимально возможном уровне качества (KRCC -0.3992) – метрика «Ratio on minimum quality level»:

i lowest _ playback _quality_durationi
. duration initian buffering _ _time
2) воспроизведение на одном или нескольких уровнях качества выше, чем половина от максимального, значение KRCC равно 0.5806 при P-уровне значимости 2.3e-72:
i[playback _quality_durationi quality_max/2]playback _quality_durationi .
duration initian buffering _ _time
Также если рассмотреть подмножество сессий с неизменным битрейтом, то KRCC равно 0.7128 и P-уровень – 7e-13, таким образом введен признак постоянности битрейта.
Проанализировано влияние рекомендуемых МСЭ оценок пространственной и временной сложности контента, а также указанные авторами датасета тип контента и оценка количества движения. На рисунке 6 представлен вероятностный анализ оценки движения, показывающий более, чем 90% пересечение плотностей активного, плавного движения и движения камеры, что демонстрирует эквивалентность их влияния на MOS. Типы контента отличаются значительнее (рисунок 7). Между собой близки плотности вероятностей следующих типов контента: спорт, фильмы, природа и анимация. Относительно данной группы плотность вероятности типа контента «люди» имеют отличное распределение. Близкие распределения имеют природа и животные, плотности вероятностей типов контента: архитектура, компьютерная игра, еда и запись экрана имеют отличные распределения.

Рисунок 6. Плотность распределения вероятности 5 типов движения

Рисунок 7 Графики плотности типов контента
Метрики оценки пространственной и временной информации SI и TI, рекомендуемые ITU, не проходят проверку статистической значимости и не обладают уровнем корреляции выше 0.06 KRCC по модулю. В свою очередь, человеческие оценки количества движения и типа контента являются статистически значимыми и коррелируют с целевым показателем MOS согласно H-тесту и K . Однако, человеческие оценки не являются валидными в смысле близостей плотностей распределения вероятностей, кроме того, обладают высокими уровнями взаимной корреляции и это является статистически значимым (значение K
0.97/1, статистическая значимость 26.07/37.78, где последнее значение – корреляция одной и той же выборки). Данные утверждения также подтверждены в конце главы во время построения моделей с помощью машинного обучения.
Дополнительно были проанализированы признаки, описывающие повышение и понижение уровней кодирования, разрешение видео и ряд других. Тепловая карта с отмеченными высоко ассоциируемыми с MOS и между собой признаками представлена на рисунке 8.

Рисунок 8. Тепловая карта числовых признаков
Согласно исследованиям ITU, получившим развитие в ряде иных работ, зависимость QoE от интегрального показателя качества имеет сигмоидальную природу:
QoE b  1 / 1   exp b V b 2 – 3, (1)
где b1 – коэффициент масштабирования ранговой шкалы, b2 – коэффициент наклона и b3 – смещение, 𝑉 = ∑𝑛𝑖=1 𝑤𝑖𝜓𝑖 – интегральный показатель качества, i = 1, …, n, wi – весовые
коэффициенты, ψi – объективные метрики (признаки).
Согласно проведенному анализу данных (рисунок 9) функция зависимости имеет вид повернутой на 90 градусов и отраженной сигмоиды. Предыдущие исследования полагали, что, начиная с некоторого граничного значения Vhigh, качество практически не изменяется, плавно приближаясь к максимуму. Аналогично с ухудшением оценки восприятия при понижении интегрального показателя качества до Vlow.
Эксперимент же показывает, что также существуют граничные значения Vhigh и Vlow, при достижении которых поведение функции меняется. Однако оно имеет не плавный уход в асимптоту, а резкий. Данную функцию можно описать следующей логарифмической зависимостью и граничными условиями: QoE  min(scale_ range V), Vlow

QoE logb1 * b2V /V   3,b V [Vlow,Vhigh ]. (1*)
QoE  max(scale_ range V), Vhigh
Уточнение данной зависимости позволяет провести обратное преобразование, выделив функцию V(QoE) с целью применения к вектору целевых значений MOS. В качестве такого преобразования без потери общности подходит
VC D/   exp QoE  (2*)
где С и D – отличные от нуля и -1 константы, в частности, С=D=1.
Такое нелинейное преобразование (2), как показали расчёты при построении моделей, позволяет строить более точные линейные модели (повышение SRCC с MOS на 0.01-0.1), построенные по причине простоты в интерпретации и практическом применении. Для более

Рисунок. 9. Модель оценки качества видео на основе градиентного бустинга над деревьями (голубая линия описывает предсказания на тестовых данных, а оранжевая – предсказания на валидационных данных).
сложных моделей (ансамбль деревьев и SVD) это преобразование ускоряет сходимость и упрощает итоговую модель (в частности, количество деревьев уменьшилось с 420 до 90 в модели градиентного бустинга).
Имеющиеся 450 объектов были разбиты на стратифицированные подвыборки для обучения, тестирования и валидации в отношении 80/10/10. В качестве базового качества было выбрано медианное значение по обучающей подвыборке, как более устойчивое к выбросам по сравнению со средним значением. Функционал ошибки моделей – Mean Absolute Error (MAE):
N
Q w X Y( , , ) (| a w x( , i ) yi |)
i1 .
Было проанализировано 5 базовых моделей машинного обучения:

  • Linear Regression;

  • Gradient Boosting Regression;

  • Support Vector Machine Regression;

  • Random Forest Regression;

  • K-Nearest Neighbors Regression.


Рисунок 10. Эффект стратификации для базовых моделей. Синим указана эффективность работы стандартного метода случайного разбиения ShuffleSplit библиотеки sklearn

Рисунок 11. График плотности и остатков для модели градиентного буситнга оценки качества видео
и выбран градиентный бустинг над деревьями (Gradient Boosting Regression) как модель, дающая наименьшее значение MAE и демонстрирующая стабильные значения для различных разбиений данных на подвыборки (рисунок 10). После перебора гиперпараметров был получен результат SRCC 0.9647 на валидационной подвыборке (рисунок 11).
Важность признаков можно интерпретировать как переменные, наиболее прогнозирующие для целевого значения. Более точным определением является среднее уменьшение примести, которое определяется как общее уменьшение примеси узла, взвешенное по вероятности достижения этого узла, усредненное по всем деревьям ансамбля. Вероятность достижения данного узла аппроксимируется долей выборок, достигающих этого узла. 10 наиболее важных признаков представлены в таблице 1. В ней же представлена модель линейной регрессии, построенная на этих признаках.
Данная модель Lin_reduced была построена без нелинейного преобразования целевой переменной, без нормировки данных, для того, чтобы её можно было использовать на практике:
10
Lin reduced_  w0 wi i
i1
Таблица 1. 10 наиболее важных признаков модели градиентного бустинга и значения весов регрессионной модели Lin_reduced


Download 1.55 Mb.

Do'stlaringiz bilan baham:
1   2   3   4   5   6   7   8   9   10   11




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling