Кафедра математических и компьютерных методов курсовая работа методология интеллектуального анализа данных
Деревья решений как вариант решения проблемы устранения недостатков скоринговой системы
Download 0.49 Mb.
|
intellektualny analiz dannykh
Деревья решений как вариант решения проблемы устранения недостатков скоринговой системы.Рисунок 2.1 – Пример дерева решений Сущность этого метода заключается в следующем: На основе данных за прошлые периоды строится дерево. При этом класс каждой из ситуаций, на основе которых строится дерево, заранее известен. В нашем случае должно быть известно, была ли возвращена основная сумма долга и проценты и не было ли просрочек в платежах. При построении дерева все известные ситуации обучающей выборки сначала попадают в верхний узел, а потом распределяются по узлам, которые в свою очередь также могут быть разбиты на дочерние узлы. Критерий разбиения – это различные значения какого-либо входного фактора. Для определения поля, по которому будет происходить разбиение, используется показатель, называемый энтропия – мера неопределенности. Выбирается то поле, при разбиении по которому устраняется больше неопределенности. Неопределенность тем выше, чем больше примесей (объектов, относящихся к различным классам) находятся в одном узле. Энтропия равна нулю, если в узле будут находиться объекты, относящиеся к одному классу. Полученную модель используют при определении класса (Давать/Не давать кредит) вновь возникших ситуаций (поступила заявка на получение кредита). При существенном изменении текущей ситуации на рынке, дерево можно перестроить, т.е. адаптировать к существующей обстановке. Задача классификации состоит в определении к какому классу двух изначально известных областей относится объект. Обычно таким объектом является вектор n-мерном вещественном пространстве Rn. Данный метод так же является бинарным. Простым примером является точки на плоскости, разбитые на два класса. Красная линия на рисунке 2.2 является разделяющей. Р исунок 2.2 – Разделение на классы. После, у нас появляются еще две несколько прямых, разделяющих представленные классы на рисунке 2.3 Р исунок 2.3 — Обучающая выборка Опираясь на точность классификации лучше выбрать прямую, расстояние от которой до каждого класса минимально. То есть, выберем ту прямую, которая делит классы лучшим образом. Она будет иметь название оптимальной разделяющей гиперплоксостью. Если обратиться к математическому обоснованию, то обучающая выборка будет иметь вид (x1,y1),...,(Xn,Ym), x , (2.1) За нормальный вектор мы примем w, к разделяющей гиперплоскости. Р исунок 2.4 — Применение вектора к гиперплоскости. Чтобы представить это в виде задачи оптимизации: arg min ||w||2, yi ((w,xi)+ , i=1,...,m. (2.2) Это стандартная задача квадратичного программирования и решается с помощью множителей Лагранжа. 2.3 Метод ближайшего соседа Метод ближайшего соседа представляет собой самый простой метрический классификатор, который базируется на оценивании сходства различных объектов. Анализируемый объект относят к классу, к которому принадлежат предметы обучающей выборки. Основная формула применяемая в данном методе — формула евклидова расстояния. p(Xi,Xj)= (2.3) Наглядным примером метода ближайшего соседа являются известные экземпляры отмеченные «+» или «-», определяющими принадлежность к классу, а новый объект обозначен красным кругом. Также, мы сразу будем использовать метод k-ближайших соседей. Р исунок 2.5 — Определение ближайшего соседа 2.4 Метод нейронных сетей Нейронные сети ставят перед собой задачу: классификации, прогнозирования, кластеризации. Они имеют общий вид на рисунке 2.6 Р исунок 2.6 — Общий вид нейронных сетей. Каждый синапс характеризуется величиной синаптической связи. А выход нейрона является функцией его состояния y=f(s). Архитектура нейронных сетей может быть синхронной и асинхронной. 3. Применение методов интеллектуального анализа на предоставленных предприятиях Модель нейронной сети для предсказания финансовой несостоятельности организации. Для построения нейронной сети необходимо разработать ее топологию, определить механизм обучения и процедуру тестирования. Кроме того для обучения нужны входные данные – выборка компаний с достоверной финансовой отчетностью и рассчитанные на ее основе коэффициенты. Наиболее привлекательным в данном случае представляется выбор трехслойного персептрона и алгоритма обратного распространения в качестве обучающего. Р Конфигурация данной сети: Таблица 3.1 — Конфигурация сети
Точность подбора этих параметров определяет способность сети к обучению. Входные узлы соответствуют финансовым коэффициентам, используемым для предсказания несостоятельности. Значение единственного узла выходного слоя – показатель финансовой состоятельности предприятия. Единичное значение соответствует состоянию банкротства, нулевое – полному финансовому благополучию. В качестве активационной функции выбрана сигмоидальная: Р исунок 3.2 — Применение сигмодиальной функции В качестве входных данных используется разработанный автором набор финансовых коэффициентов. В качестве базовых использовались параметры модели Альтмана, они были дополнены набором собственных. При этом при выборе параметров модели основное внимание уделялось не соответствию расчета выбранных коэффициентов общепринятым методикам финансового анализа, а влияние исходного набора данных на качество обучения сети и как следствие эффективность ее прогнозирования Таблица 3.2 — Набор финансовых коэффициентов
Коэффициенты обучения и инерции являются параметрами алгоритма обратного распространения и определяют скорость и точность определения весов, минимизирующих ошибку предсказания. Большие значения этих параметров позволяют алгоритму сходиться за меньшее число итераций, но при этом возрастает риск “проскочить” оптимальное решение. В качестве исходных данных бралась финансовая отчетность 100 компаний (данные о 50 компаниях выступали в качестве данных для обучения, для тестирования модели 100 компаний были разбиты на 2 множества – обучающее множество и тестирующее множество). Для оценки правильности модели была собрана статистика по фирмам за 3 года до их банкротства (для благополучных компаний – за 3 года предшествующих произвольной дате существования предприятия) и нейронная сеть обучена на данных финансовой отечности каждого года. Таблица 3.3 — Обучающее множество
Таблица 3.4 — Тестирующее множество
Как и ожидалось, модель показала высокие результаты для обучающего множества и значительно более низкие для тестирующего. Также, в анализе результатов прогнозирования для компаний из тестирующего множества, представляется факт высокой вероятности предсказания банкротства в первые 2 года. Требуется дальнейшее исследование для определения причин этого явления. 3.1 Дерево решений Будем использовать программу Tree Analyzer из пакета Deductor ver.3. В качестве исходных данных была взята выборка, состоящая из 1000 записей, где каждая запись – это описание характеристик заемщика и параметр, описывающий его поведение во время погашения ссуды. При обучении дерева использовались следующие факторы, определяющие заемщика: "N Паспорта"; "ФИО"; "Адрес"; "Размер ссуды"; "Срок ссуды"; "Цель ссуды"; "Среднемесячный доход"; "Среднемесячный расход"; "Основное направление расходов"; "Наличие недвижимости"; "Наличие автотранспорта"; "Наличие банковского счета"; "Наличие страховки"; "Название организации"; "Отраслевая принадлежность предприятия"; "Срок работы на данном предприятии"; "Направление деятельности заемщика"; "Срок работы на данном направлении"; "Пол"; "Семейное положение"; "Количество лет"; "Количество иждивенцев"; "Срок проживания в данной местности"; "Обеспеченность займа"; "Давать кредит". При этом поля: "N Паспорта", "ФИО", "Адрес", "Название организации" определены алгоритмом уже до начала построения дерева решений как непригодные на рисунке 3.3 по причине практической уникальности каждого из значений/ Р Целевым полем является поле "Давать кредит", принимающий значения "Да"(True) и "Нет"(False). Эти значения можно интерпретировать следующим образом: "Нет" – плательщик либо сильно просрочил с платежами, либо не вернул часть денег, "Да" – противоположность "Нет". После процесса построения дерева решений при помощи программы Tree Analyzer получаем следующую модель оценки кредитоспособности физических лиц, описывающую ситуацию, относящуюся к определенному банку. Эта модель представлена в виде иерархической структуры правил – дерева решений приложение А. Анализируя полученное дерево решений , можно сказать следующее: При помощи дерева решений можно проводить анализ значащих факторов. Такое возможно благодаря тому, что при определении параметра на каждом уровне иерархии, по которому происходит разделение на дочерние узлы, используется критерий наибольшего устранения неопределенности. Таким образом, более значимые факторы, по которым проводится классификация, находятся на более близком расстоянии (глубине) от корня дерева, чем менее значимые. Например, фактор "Обеспеченность займа" более значим, чем фактор "Срок проживания в данной местности". А фактор "Основное направление расходов" значим только в сочетании с другими факторами. Еще одним интересным примером значимости различных факторов служит отсутствие в построенном дереве параметра "Наличие автотранспорта", что говорит о том, что на сегодняшний день это наличие не является определяющим при оценке кредитоспособности физического лица. Можно заметить, что такие показатели как "Размер ссуды", "Срок ссуды", "Среднемесячный доход" и "Среднемесячный расход" вообще отсутствуют в полученном дереве. Данный факт можно объяснить тем, что в исходных данных присутствует такой показатель как "Обеспеченность займа", и т.к. этот фактор является точным обобщением 4 вышеописанных показателей, алгоритм построения дерева решений выбрал именно его. Очень важной особенностью построенной модели является то, что правила, по которым определяется принадлежность заемщика к той или иной группе, записаны на естественном языке. Например, на основе построенной модели получаются следующие правила: ЕСЛИ Обеспеченность займа = Да И Срок проживания в данной местности, лет > 5.5 И Количество лет > 19.5 И Наличие недвижимости = Да ИНаличие банковского счета = Да ТО Давать кредит = Да (Достоверно на 98%) ЕСЛИ Обеспеченность займа = Да И Срок проживания в данной местности, лет > 5.5 И Наличие недвижимости = Да И Количество лет > 21.5 И Срок работы на данном направлении, лет <= 5.5 И Пол = Муж И Наличие банковского счета = Нет И Основное направление расходов = Одежда, продукты питания и т.п. ТО Давать кредит = Нет (Достоверно на 88%) Правильно построенное на данных прошлых периодов дерево решения обладает одной еще очень важной особенностью. Эта особенность называется "способность к обобщению", т. е. если возникает новая ситуация (обратился потенциальный заемщик), то скорее всего такие ситуации уже были и достаточно много. Вследствие чего можно с большой долей уверенности сказать, что вновь обратившийся заемщик поведет себя так же, как и те заемщики, характеристики которых очень похожи на характеристики вновь обратившегося. На основе построенной модели можно определять принадлежность потенциального заемщика к одному из классов. Для этого необходимо воспользоваться диалоговым окном "Эксперимент" программы Tree Analyzer рисунок 3.4 , в котором, последовательно отвечая на вопросы, можно получить ответ на вопрос: "Давать ли кредит". Р Используя такой подход, можно устранить сразу оба вышеописанных недостатка скоринговой системы оценки кредитоспособности. То есть: Стоимость адаптации сводится практически к минимуму за счет того, что алгоритмы построения модели классификации (дерево решений) – это самоадаптируемые модели (вмешательство человека минимально) Качество результата достаточно велико за счет того, что алгоритм выбирает наиболее значимые факторы для определения конечного ответа. Плюс ко всему полученный результат является статистически обоснованным. Приведенный выше пример – это вариант того, как можно использовать методы интеллектуального анализа данных, в частности, деревья решений, для достижения поставленной задачи: уменьшения риска при операциях кредитования физических лиц. Хотя и при таком первом приближении наблюдаются положительные результаты. Дальнейшие усовершенствования могут затрагивать такие моменты, как: более точный подбор определяющих заемщика факторов; изменение самой постановки задачи, так, например, вместо двух значений целевого параметра, можно использовать более детальную информацию (Вернул/Не вернул/Не вовремя) или использовать в качестве целевого значения вероятность того, что деньги выплачены вовремя; в данной статье ни слова не говориться об очистке данных, хотя, как показывает практика, использование предобработки исходных данных позволяет значительно улучшить качество результата и является важным этапом при комплексном подходе к решению любой задачи анализа данных. ЗАКЛЮЧЕНИЕ Данная курсовая работа ориентирована на применение интеллектуального анализа в финансовых и организационных структурах предприятий. С учетом того, что в данное время использование искусственного интеллекта является основополагающим успешного функционирования любого масштабного предприятия можно с уверенностью сказать, что интеллектуальный анализ может быть адаптирован под любой запрос пользователя и дать более точный результат, чем человек. Также, интеллектуальный анализ имеет в себе огромное количество всевозможных методов,а, то есть, в дополнение к использованию конкретного инструмента для интеллектуального анализа данных, внутренние пользователи могут также выбрать необходимое из множества методов интеллектуального анализа данных. Наиболее часто используемые методы включают искусственные нейронные сети, древа решений и метод ближайших соседей, которые были разобраны нами во 2 и 3 главе. Данные методы являются наиболее актуальными, точными и, соответственно, прибыльными для любой организации. СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ Богдан Криват, Джеми Макленнен, Чжаохуэй Танг Microsoft SQL Server 2008 :Datamining - интеллектуальный анализ данных СПб. : БХВ-Петербург, 2009 А.А. Барсегян, И.И. Холод, М.Д.Тесс, М.С. Куприянов, С.И. Елизаров Анализ данных и процессов СПб.: БХВ-Петербург, 2009 Фрейдина, Е.В. Исследование систем управления организации. Учебное пособие [Электронный ресурс]: учебное пособие / Е.В Фрейдина — Электрон. текстовые дан. — М. : Омега-Л, 2013. 368 Силич, М.П. Теория систем и системный анализ [Электронный ресурс] : учебное пособие / М.П. Силич, В.А. Силич. — Электрон. текстовые дан. — М. : ТУСУР (Томский государственный университет систем управления и радиоэлектроники), 2011. — 276 с. Архипова, Н.И Теория системного анализа и управления: учеб. пособие для вузов / Н.И Архипова, В.В. Кульба, С.А. Косяченко. – М.: «Издательство ПРИОР», 2008. – 384с. Паклин Н.Б., Орешков В.И. Бизнес-аналитика: от данных к знаниям Д. Макленнен, ч..Танг, Б.Криват — Microsoft SQLServer 2008: Data mining — интеллктуальный анализ данных Intuit.ru (электронный ресурс) интеллектуальный анализ https://www.intuit.ru/studies/courses/6/6/info Пособие для аудитов (электронный ресурс) http://intellect-tver.ru/?p=165 Игнатьева, А.В. Теория системного анализа и управления: Учебное пособие для вузов / А.В. Игнатьева, М.М. Максимцов. – М.: ЮНИТИ – ДАНА, 2009. – 157с. ПРИЛОЖЕНИЕ А Дерево решений для кредитования с условиями Download 0.49 Mb. Do'stlaringiz bilan baham: |
ma'muriyatiga murojaat qiling