Основы информационных технологий
Download 1.75 Mb. Pdf ko'rish
|
Интеллектуальный анализ данных Чернышова
§2.2. Деревья решений
Деревья решений (Decision Trees) – это метод, позволяющий предска- зывать принадлежность наблюдений или объектов к тому или иному классу категориальной зависимой переменной в зависимости от соответ- ствующих значений одной или нескольких предикторных переменных. Цель построения деревьев классификации заключается в предсказании (или объяснении) значений категориальной зависимой переменной, и поэтому используемые методы тесно связаны с более традиционными методами дискриминантного анализа, кластерного анализа, непарамет- рической статистики. Широкая сфера применимости деревьев классификации делает их весьма привлекательным инструментом анализа данных, но не следует поэтому полагать, что его рекомендуется использовать вместо традици- онных методов статистики. Напротив, если выполнены более строгие теоретические предположения, налагаемые традиционными методами, и выборочное распределение обладает некоторыми специальными свой- ствами, то более результативным будет использование именно традици- онных методов. Однако как метод разведочного анализа или как послед- – 23 – нее средство, когда отказывают все традиционные методы, деревья клас- сификации, по мнению многих исследователей, не знают себе равных. Впервые деревья решений были предложены Ховилендом и Хантом в конце 50-х годов прошлого века. Метод деревьев решений является од- ним из наиболее популярных методов решения задач классификации и прогнозирования. Если зависимая, т.е. целевая переменная принимает дискретные зна- чения, то при помощи метода дерева решений решается задача класси- фикации. Если же зависимая переменная принимает непрерывные зна- чения, то дерево решений устанавливает зависимость этой переменной от независимых переменных, т.е. решает задачу численного прогнозиро- вания. В наиболее простом виде дерево решений – это способ представле- ния правил в иерархической, последовательной структуре. Основа такой структуры – ответы "Да" или "Нет" на ряд вопросов. В качестве примера приведем дерево решений, задача которого – ответ на вопрос: "Играть ли в гольф?" (рис.3). Чтобы решить задачу, т.е. принять решение, играть ли в гольф, следует отнести текущую ситуацию к одному из известных классов (в данном случае – "играть" или "не играть"). Солнечно? Дождь идет? Температура воздуха высокая? Не играть Не играть Играть Играть Да Да Да Нет Нет Нет Рис. 3. Пример дерева решений «Играть ли в гольф?» Для этого требуется ответить на ряд вопросов, которые находятся в узлах этого дерева, начиная с его корня. Первый узел нашего дерева "Солнечно?" является узлом проверки, т.е. условием. При положитель- ном ответе на вопрос осуществляется переход к левой части дерева, называемой левой ветвью, при отрицательном – к правой части дерева. – 24 – Таким образом, внутренний узел дерева является узлом проверки опре- деленного условия. Далее идет следующий вопрос и т.д., пока не будет достигнут конечный узел дерева, являющийся узлом решения. Для нашего дерева существует два типа конечного узла: "играть" и "не иг- рать". В результате прохождения от корня дерева (иногда называемого корневой вершиной) до его вершины решается задача классификации, т.е. выбирается один из классов – "играть" или "не играть" в гольф. Целью построения дерева решения в нашем случае является опреде- ление значения категориальной зависимой переменной. Для нашей за- дачи основными элементами дерева решений являются: корень дерева ("Солнечно?"), внутренний узел дерева или узел проверки ("Температура воздуха высокая?", "Идет ли дождь?"), лист или конечный узел дерева ("Играть", "Не играть"), ветвь дерева, т.е. случаи ответа ("Да", "Нет"). В рассмотренном примере решается задача бинарной классификации, т.е. создается дихотомическая классификационная модель. Рассмотрим более сложный пример (рис.4). База данных, на основе которой должно осуществляться прогнозирование, содержит следующие ретроспективные данные о клиентах банка, являющиеся ее атрибутами: возраст, наличие недвижимости, образование, среднемесячный доход, вернул ли клиент вовремя кредит. Возраст > 35 Доход > 200 Есть ли недвижимость? Не выдавать Не выдавать Да Да Нет образования Нет Нет Какое образование? Выдавать Нет Да Среднее Высшее ... ... ... Рис. 4. Пример дерева решений «Выдавать ли кредит?» Задача состоит в том, чтобы на основании перечисленных выше дан- ных (кроме последнего атрибута) определить, стоит ли выдавать кредит – 25 – новому клиенту. На этапе построения модели, собственно, и строится де- рево классификации или создается набор неких правил. На этапе исполь- зования модели построенное дерево, или путь от его корня к одной из вершин, являющийся набором правил для конкретного клиента, исполь- зуется для ответа на поставленный вопрос "Выдавать ли кредит?" Прави- лом является логическая конструкция, представленная в виде "если, то". Внутренние узлы дерева (возраст, наличие недвижимости, доход и образование) называют прогнозирующими или атрибутами расщепления (splitting attribute). Конечные узлы дерева именуются метками класса, являющимися значениями зависимой категориальной переменной "вы- давать" или "не выдавать" кредит. Каждая ветвь дерева, идущая от внутреннего узла, отмечена предикатом расщепления. Последний может относиться лишь к одному атрибуту расщепления данного узла. Характерная особенность предикатов расщепления: каждая запись использует уникальный путь от корня дерева только к одному узлу- решению. Объединенная информация об атрибутах расщепления и пре- дикатах расщепления в узле называется критерием расщепления (splitting criterion). Качество построенного дерева решения весьма зави- сит от правильного выбора критерия расщепления. Иерархическое строение дерева классификации – одно из наиболее важных его свойств (не следует, однако, чересчур буквально принимать аналогию между ним и настоящим деревом; деревья решений чаще все- го рисуются на бумаге вверх ногами). Другая отличительная черта метода – это присущая ему гибкость. Способность деревьев классификации выполнять одномерное ветвление для анализа вклада отдельных переменных дает возможность работать с предикторными переменными различных типов. Рассмотрим теперь ситуацию, когда имеется много категорий, но ма- ло предикторов. Предположим, например, что мы хотим рассортировать монеты различных достоинств, имея только данные измерений их тол- щины и диаметра. В обычном линейном дискриминантном анализе мож- но получить самое большее две дискриминантных функции, и монеты могут быть успешно рассортированы только в том случае, если они раз- личаются не более чем двумя параметрами, представимыми в виде ли- нейных комбинаций толщины и диаметра монеты. Напротив, в подходе, который используется в деревьях классификации, мы не связаны огра- ничениями в количестве ветвлений по линейным комбинациям, которое можно проделать. – 26 – На сегодняшний день существует значительное число алгоритмов, реализующих деревья решений CART, C4.5, NewId, ITrule, CHAID, CN2 и т.д. Но наибольшее распространение и популярность получили следую- щие два: C4.5 – алгоритм построения дерева решений, количество потомков у узла не ограничено; решает только задачи классификации; CART (Classification and Regression Tree) – это алгоритм построения бинарного дерева решений – дихотомической классификационной моде- ли; каждый узел дерева при разбиении имеет только двух потомков; ре- шает задачи классификации и регрессии. В случаях, когда имеется много предикторных переменных с большим числом уровней, поиск методом CART может оказаться довольно про- должительным. Кроме того, этот метод имеет склонность выбирать для ветвления те предикторные переменные, у которых больше уровней. Однако поскольку здесь производится полный перебор вариантов, есть гарантия, что будет найден вариант ветвления, дающий наилучшую классификацию (по отношению к обучающей выборке). Метод QUEST – быстрый и несмещенный. Его преимущество в скоро- сти перед методом CART становится особенно заметным, когда предик- торные переменные имеют десятки уровней. Отсутствие у метода сме- щения в выборе переменных для ветвления также является его суще- ственным преимуществом в случаях, когда одни предикторные перемен- ные имеют мало уровней, а другие – много. Наконец, метод QUEST не жертвует точностью прогноза ради скорости вычислений. Сочетание оп- ций QUEST и CART позволяет полностью использовать всю гибкость ап- парата деревьев классификации. Разработан ряд масштабируемых алгоритмов, которые могут быть ис- пользованы для построения деревьев решения на сверхбольших базах данных; масштабируемость здесь означает, что с ростом числа примеров или записей базы данных время, затрачиваемое на обучение, т.е. по- строение деревьев решений, растет линейно. Деревья решений имеют ряд очевидных преимуществ перед стати- стическими методами. Интуитивность деревьев решений. Классификационная модель, пред- ставленная в виде дерева решений, является интуитивной и упрощает понимание решаемой задачи. Результат работы алгоритмов конструиро- вания деревьев решений, в отличие, например, от нейронных сетей, представляющих собой "черные ящики", легко интерпретируется поль- – 27 – зователем. Это свойство деревьев решений не только важно при отнесе- нии к определенному классу нового объекта, но и полезно при интер- претации модели классификации в целом. Дерево решений позволяет понять и объяснить, почему конкретный объект относится к тому или иному классу. Деревья решений дают возможность извлекать правила из базы данных на естественном языке. Пример правила: если возраст > 35 и доход > 200, то выдать кредит. Решение трудно формализуемых задач. Деревья решений позволяют создавать классификационные модели в тех областях, где аналитику до- статочно сложно формализовать знания. Алгоритм конструирования де- рева решений не требует от пользователя выбора входных атрибутов (независимых переменных). На вход алгоритма можно подавать все су- ществующие атрибуты, алгоритм сам выберет наиболее значимые среди них, и только они будут использованы для построения дерева. В сравне- нии, например, с нейронными сетями, это значительно облегчает поль- зователю работу, поскольку в нейронных сетях выбор количества вход- ных атрибутов существенно влияет на время обучения. Точность модели. Точность моделей, созданных при помощи деревь- ев решений, сопоставима с другими методами построения классифика- ционных моделей (статистические методы, нейронные сети). Быстрый процесс обучения. На построение классификационных мо- делей при помощи алгоритмов конструирования деревьев решений тре- буется значительно меньше времени, чем, например, на обучение нейронных сетей. Использование категориальных видов данных. Большинство алгорит- мов конструирования деревьев решений имеют возможность специаль- ной обработки пропущенных значений. Многие классические статистиче- ские методы, при помощи которых решаются задачи классификации, мо- гут работать только с числовыми данными, в то время как деревья ре- шений работают и с числовыми, и с категориальными типами данных. Многие статистические методы являются параметрическими, и пользова- тель должен заранее владеть определенной информацией, например, знать вид модели, иметь гипотезу о виде зависимости между перемен- ными, предполагать, какой вид распределения имеют данные. Деревья решений, в отличие от таких методов, строят непараметрические моде- ли. Таким образом, деревья решений способны решать такие задачи Data Mining, в которых отсутствует априорная информация о виде зави- симости между исследуемыми данными. – 28 – Основные этапы алгоритмов конструирования деревьев: - создание дерева (tree building); - сокращение дерева (tree pruning). В ходе создания дерева решаются вопросы выбора критерия расщеп- ления и остановки обучения (если это предусмотрено алгоритмом). В хо- де этапа сокращения дерева решается вопрос отсечения некоторых его ветвей. Процесс создания дерева происходит сверху вниз, т.е. является нис- ходящим. В ходе процесса алгоритм должен найти такой критерий рас- щепления, иногда также называемый критерием разбиения, чтобы раз- бить множество на подмножества, которые бы ассоциировались с дан- ным узлом проверки. Каждый узел проверки должен быть помечен опре- деленным атрибутом. Существует правило выбора атрибута: он должен разбивать исходное множество данных таким образом, чтобы объекты подмножеств, получа- емых в результате этого разбиения, являлись представителями одного класса или же были максимально приближены к такому разбиению. Су- ществуют различные критерии расщепления. Наиболее известные – ме- ра энтропии и индекс Gini. В некоторых методах для выбора атрибута расщепления используется так называемая мера информативности подпространств атрибутов, кото- рая основывается на энтропийном подходе и известна под названием "мера информационного выигрыша" (information gain measure) или мера энтропии. Другой критерий расщепления реализован в алгоритме CART и назы- вается индексом Gini. При помощи этого индекса атрибут выбирается на основании расстояний между распределениями классов. Если дано мно- жество T, включающее примеры из n классов, индекс Gini, т.е. gini( Download 1.75 Mb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling