Referee’s report


Download 96.08 Kb.
bet1/6
Sana26.02.2023
Hajmi96.08 Kb.
#1231988
  1   2   3   4   5   6
Bog'liq
Отношения на много



Об отношениях объектов обучающей выборки на многообразиях наборов латентных признаков


Аннотация. Рассматриваются нелинейные преобразования значений разнотипных признаков в описании допустимых объектов из двух классов. Результатом преобразования является замена исходных данных на бинарные. Формирование многообразия наборов латентных признаков производится на основе различных способов группировки бинарных данных. Латентные признаки рассматриваются как средство для снижения размерности пространства и синтеза ансамблей алгоритмов распознавания по технологии стекинга. Предложен способ вычисления плотности распределения данных на обучающей выборке по множеству граничных по заданной метрике объектах классов. Разработана метрика для сравнения плотности на двух наборах латентных признаках, описаны её свойства.

1.Введение
Формирование наборов латентных признаков является одним из способов решения проблемы проклятия размерности в задачах интеллектуального анализа данных. У известных линейных и нелинейных методов снижения размерности существует ряд недостатков, ограничивающих их применение. К числу таких недостатков можно отнести:
– ориентация лишь на количественные признаки;
– чувствительность к проклятию размерности при вычислении меры расстояния между объектами;
– нелинейный рост сложности вычислений;
– усреднение данных при вычислениях.
Как одно из возможных альтернатив получить решение, полностью или частично лишённое указанных выше недостатков, является использование метода вычисления обобщённых оценок объектов классов. Относительно анализируемых данных метод:
– инвариантен к масштабам измерений признаков;
– использует значения исходных признаков в номинальной и интервальных шкалах измерений.
Одним из свойств при анализе разнотипных признаков с учётом классификации объектов является их устойчивость. Актуальность применения этого свойства для вычисления обобщённых оценок анализа данных возрастает при наличии теоретического обоснования сходимости значений устойчивости к фиксированной величине. С устойчивостью связана предобработка данных с целью:
– удаления неинформативных признаков;
– формирование баз прецедентов из уникальных объектов.
Источником многообразия наборов латентных признаков является множество способов группировки исходных признаков, на основе которых происходит их формирование. Эти наборы используются для исследования структуры отношений объектов выборки. Численными характеристиками результатов анализа структуры отношений являются множество значений мер их компактности по классам и выборки в целом.
Существуют особенности вычисления и интерпретации значений мер компактности для алгоритмов типа ближайших соседей таких как NN и KNN. Для NN особенности связаны с выбором и удалением шумовых объектов с целью повышения обобщающей способности алгоритма. Есть возможность цензурирования выборки через поиск её минимального покрытия объектами–эталонами. Для KNN проблемы удаления шумовых объектов не существует, но принятие решения о принадлежности допустимого объекта к классам связано с хранением всей выборки.

Средством для анализа значений меры компактности и плотности распределений объектов классов в признаковом пространстве является метрика. Для вычисления меры компактности применялось отношение связанности объектов по системе гипершаров, в пересечении которых имеются граничные объекты классов.


Значения плотности в окрестности объекта из k ближайших соседей в разных признаковых пространствах использовались для визуализации выборок данных. Так в методе [tsne] для сохранения отношений между объектами в Rn(n>2) и их нелинейным отображением в R2 рассматривалась близость по плотности распределения.

Что является общим при вычислении меры компактности и плотности распределения.


1.Использование множества граничных объектов классов.
2. Вычисление радиусов гипершаров как расстояния до первого ближайшего объекта из противоположного класса.
Значения плотности распределения обучающей выборки в разных признаковых пространствах предлагается сравнивать по парам граничных объектов классов. Каждая пара представлена объектами из разных классов. Метрика Кульбака-Лейблера для таких целей не подходит. Необходима другая мера расстояния, в которой как и для метрики Кульбака-Лейблера не гарантируется свойство симметричности.
Множество граничных объектов классов в одном пространстве рассматриваются как центры гипершаров в своём и другом пространстве. В своём пространстве гипершары содержат представителей только одного класса. Такое свойство гипершаров на другое пространство не распространяется.
Множество пар объектов из разных классов, сформированных из множества граничных используется для вычисления радиусов гипершаров.
В работе рассматриваются сравнительный анализ двух видов отношений объектов на обучающей выборке:

  1. Близости объектов через формирование матрицы плотности распределений.

  2. Связанности объектов классов по системе гипершаров в пересечении которых содержатся граничные объекты классов.

Результаты анализа указанных выше отношений востребованы для уменьшения размерности признакового пространства, обоснования процесса формирования ансамблей алгоритмов с целью повышения обобщающей способности при распознавании объектов не задействованных при обучении.

Download 96.08 Kb.

Do'stlaringiz bilan baham:
  1   2   3   4   5   6




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling