Кафедра математических и компьютерных методов курсовая работа методология интеллектуального анализа данных
Download 0.49 Mb.
|
intellektualny analiz dannykh
Раздел №3 заключается в полноценном разборе метода нейронных сетей и дерева решений. 1. Теория и методы интеллектуального анализа данных Перейдем к Data Mining непосредственно. Data mining (сбор данных) — мультидисциплинарная область, возникшая и развивающаяся на базе прикладной статистики, распознавание образов, искусственного интеллекта, теории баз данных, визуализации, машинного обучения и других дисциплин. Разберем некоторые из них более подробно. Статистика — наука о способах сбора данных, их анализа и обработки для выявления тенденций, присущих определенному явлению. То есть, это совокупность методов планирования сбора и анализа данных. Она оперирует данными. Машинное обучение — процесс получения программой новых знаний. Самым наглядным примером являются нейронные сети. Искусственный интеллект — научное направление в ходе которого ставятся и решаются задачи разных видов моделирования человеческой деятельности, традиционно считающихся интеллектуальными. Иными словами, это свойство интеллектуальных систем выполнять творческие функции, которые изначально считаются ориентированными на человека. Технология Data Mining заключается в поиске неподготовленных, безызвестных ранее данных, а также полезных и доступных к использованию знаний для принятия решений. Так как данная технология предназначена для функционирования в глобальных базах данных, то на практике она имеет несколько закономерностей, а именно: неочевидных, объективных и практически полезных. Неочевидные закономерности подразумевают под собой закономерности, которые нельзя обнаружить стандартным путем анализа. Объективные — данные закономерности полностью соответствую действительности, чего нельзя сказать об экспертном мнении, которое является субъективным. Практически полезные закономерности говорят нам о том, что конкретным значениям можно найти прямое практическое применение. Прежде чем приступить к обзору уже существующих методов, мы перейдем к объекту обращения ИАД — данные. Данные и требования к их обработке Данные — это факты, тексты, графики числовые выражения, документы, и другого рода сегменты. Все это может может быть получено в результате практической деятельности. Данные должны быть конвертируемыми, а, то есть, способны менять свою форму для необходимого типа хранения. Можно сказать и проще, данные — набор необработанной информации. Данные включают в себя 2 категории: объекты и атрибуты. Объектом может являться просто строка чисел. Атрибутами могут являться различные характеристикам объекта, т.е, это своего рода переменная. В результате перехода из неопределенного состояния в определенное получается набор переменных изучаемого понятия. Обратим внимание на понятие переменной — это общее свойство всех объектов, которое может меняться от перехода от одного к другому. Главным значением переменной является наличие признака. При анализе базы данных обычно нет возможности рассмотреть общую совокупности объектов в виду огромного потока данных, но вполне достаточно рассмотреть лишь некоторую ее часть. Размер данной части должен зависеть от разнообразия имеющихся объектов представленных в генеральной совокупности. Генеральная совокупность — совокупность элементов необходимая исследователю. Выборка — часть генеральной совокупности, которая была отобрана по определенным параметрам. А параметры — числовые характеристики. Также, наряду с закономерностями существует и определенная специфика требований к обработке данных. Неограниченный объем Разнородность Корректные результаты Простые инструменты для обработки Традиционный процесс сбора данных состоит из: Анализ предметной области Постановка задачи Подготовка данных Построение моделей Проверка и оценка Выбор Применение Коррекция и обновление Анализ предметной области включает в себя отделение значительных и незначительных факторов влияющих на проводимое исследование. Существенность выбранных данных зависит от первоначально поставленной задач. В процессе ее исследования мы составляем ее элементарную модель. Она может включать в себя специализированные графические нотации, диаграммы потоков и различные структурные анализы. Модель в свою очередь, описывает процессы, происходящие в области и данные, которые для этих процессов используются. От того, насколько корректно составлена модель, зависит успех дальнейшего функционирования приложения Data Mining. Постановка задачи включает в себя: формулировку и формализацию задачи. Также, в ее состав входит описание статического и динамического подведения объектов. Описание статистки требует описание объектов в целом и их свойств. Динамка подразумевает под собой такие характеристики, которые влияют на поведение объекта непосредственно. Порой анализ и постановку объединяют в один этап, если спектр данных не так велик. Подготовка данных является важнейшим этапом, который влияет на конечный результат всех процессов. Данный этап включает в себя несколько шагов: Определение и анализ требований к данным. Это и есть непосредственно создание модели данных, которые необходимы для функционирования Data Mining. При этом изучаются все вопросы распределения данных, доступа к ним, необходимость дополнительных источников и общие аналитические характеристики системы. Сбор данных. Наличие централизованного хранилища данных весомо облегчает работу с ними. Также, это значительно дешевле, чем использование отдельных витрин и баз данных. Конечно, использование централизованного хранилища не всегда предоставляется возможным, тогда используют архивную систему базы данных, что так же значительно проще работы с отдельными частями. Если данные уже упорядочены, то следует определить имею ли они сезонность или цикличность компонентов. Если нет, то есть, компоненты не связаны временным диапазоном и не имеют хронологического порядка, то необходимо иметь в виду, что: недостаточное количество записей в наборе может стать причиной некорректного функционирования составленной модели, возможно, что некоторые из данных являются устаревшими и их нужно исключить из имеющегося списка, алгоритмы, которые используются для моделирования должны быть масштабируемыми, должно быть определенное соотношение входных переменных и наблюдений, а количество записей должно значительно их превышать, сам набор данных должен быть широкого спектра всевозможных ситуаций, чтобы иметь свойство адаптивности. Предварительная обработка данных включает в себя анализ данных. Анализировать можно как качественные, так и некачественные данные, но результат будет достигнут и в том, и в другом случае. Чтобы разграничить данные существует критерий качества. Это важный этап процесса Data Mining. 1.2 Виды данных и критерии их оценивания Качество данных — критерий, определяющий полноту и точность предоставляемых данных, а также, возможность их интерпретации. Данные высокого качества- это полные и точные данные, обеспечивающие исследователю на их фоне составить полномерную корректно функционирующую модель способную к интерпретации и принятию решений. Данные низкого качества, соответственно, таких характеристик не имеют, включая неверный формат. Наиболее распространенные виды так называемых «грязных» данных: Пропущенные значения Дубликаты Шумы и выбросы Пропущенные значения. Некоторые из значений могут быть пропущены из-за того, что данные попросту не были собраны или некоторые атрибуты априори не могут быть применены к данным. Дублирование данных. Сами по себе дубликаты являются записи имеющие одинаковую информацию по всем параметрам. Наличие дубликатов в базе может являться ориентиром для пользователя, что данные имеют особы приоритет над других. Но чаще можно столкнуться с тем, что это просто ошибка в их подготовке. Есть всего два варианта обработки дубликатов: удаление всех дубликатов (только в случае обесценивании информации) или замена группы в одну уникальную запись. Шумы и выбросы представляют собой особую группу характеристик некачественных данных. Выбросы — абсолютно отличающиеся от остальных данных объекты, по типу данных и виду их формата. Они могут быть как самостоятельными, так и иметь целую объединенную группу. Их важно не только обнаружить, но и оценить их дальнейшее влияние на данные. Различные методы интеллектуального анализа имеют различную чувствительность к шумам и выбросам. С ними нужно быть особенно осторожными, так как обработка таких данных не может нести в себе ни полезности, ни надёжности. Некачественные данные подлежат очистке, а, то есть, происходит выявление и удаление ошибок. Метод должен удовлетворять определенным критериям: Удаление всех основных ошибок; Поддержание определенных инструментов; Не затрагивать основные данные; Функции очистки данных должны быть адаптивными и к другим базам данных; Надёжность выполнения всех этапов Этапы очистки данных включают в себя 5 шагов: анализ данных, определение порядка и правил преобразования, подтверждение, преобразования и противоток очищенных данных. Анализ данных необходим для выявления и удаления поверхностных и легкодоступных ошибок. Определение порядка и правил преобразования. В зависимости от количества данных, степени их неопределенности и загрязненности,данные могут требовать обширного исследования на ошибки. Для этого необходимо составить порядок их анализа. Подтверждение. На данном этапе определяется эффективность предыдущего этапа. Это происходит путем тестирования копии источника. Преобразования. Просто обновление хранилища данных при ответе на запросы множества источников. Противоток очищенных данных. После очистки данных нужно произвести замену данных на новые, качественные, во всех возможных источниках и в хранилище непосредственно. Этот процесс требует больших объемов метаданных. Основная особенность интеллектуального анализа — это широкий математический инструментарий. К методам и алгоритмам относятся искусственные нейронные сети, деревья решений, символьные правила, метод ближайшего соседа и k-ближайшего соседа, метод опорных векторов, байесовские сети, линейная регрессия, корреляционно-регрессионный анализ, методы поиска ассоциативных правил, визуализации данных, генетические алгоритмы и ограниченного перебора. Что же касается аналитических методов, то они несут в себе характер автоматизированных математических методов. К вышеперечисленным методам мы вернемся далее. 1.3 Классификация стадий Data Mining Data Mining может включать в себя от двух до трёх стадий: свободный поиск и выявление закономерностей, прогностическое моделирование и анализ исключений. Первая стадия «Свободного поиска» включает в себя поиск скрытых закономерностей. Также, система определяет предварительные шаблоны, которые особенно полезны в сверхбольших базах данных Вторая стадия состоит из анализа первой стадии и в предсказании неизвестных значений, прогнозирования развития процессов. Решаются задачи классификации и прогнозирования. Прогностическое моделирование дедуктивно. Закономерности, сформированные на этой стадии, формируются от общего к частному и единичному. Третья стадия занимается анализом исключений или аномалий, выявленных в неопределённостях. Также, здесь появляется понятие нормы и пределы отклонений от неё. Существует два варианта трактовок: логическое объяснение оформленное в виде правила и фактические ошибки исходных данных. Классификация методов интеллектуального анализа У интеллектуального анализа есть 2 больше группы методов по которым осуществляется его функционирование. Непосредственное использование или сохранение данных в детализированном виде и используются на 2 и 3 стадии. Основная проблема - несопоставимость с большим объемом данных. К данному методу относятся: кластерный анализ, метод ближайшего соседа, рассуждение по аналогии. Выявление и использование формализованных закономерностей. Здесь используется шаблон (образец) для правильного анализа данных и происходит преобразование в формальные конструкции, вид которых зависит от используемого метода интеллектуального анализа. Методы данной группы: визуализация, уравнения, кросс-табуляция и логические методы. Логические методы ( методы индукции) включаются в себя нечеткие запросы и анализы, деревья решений и генетические алгоритмы. Они являются наиболее интерпретируемыми к базам данных Методы кросс-табуляции. Они не отвечают одному из требований к интеллектуальному анализу — самостоятельному поиску закономерностей, однако полностью находит и предоставляет пользователю шаблоны. Методы на основе уравнений говорят сами за себя и являются отдельной, исключительно математической группой. Однако, они могут работать лишь с численными значениями при наличии переменных, которые должны быть закодированы определенным образом. Кибернетические методы. Это компьютерная математика и использование искусственного интеллекта. Сюда относят: искусственные нейронные сети (прогноз), оптимизация, деревья решений, нечеткая логика. 1.5 Задачи интеллектуального анализа Задачи в интеллектуальном анализе зачастую называют закономерностями.. Есть несколько видов задач: классификация, кластеризация, ассоциация, последовательность, прогнозирование, оценивание, визуализация, подведение итогов. Классификация представляет собой самую простую и распространённую из задач. В результате решения задачи обнаруживаются схожие признаки в базе данных и происходит распределение на классы. Кластеризация — логическое продолжение классификации. Особенность данной задачи заключается в том, что данные изначально не предопределены на классы. Ассоциация выявляет закономерности между связанным событиями. Отличием данной задачи от предыдущих является в том, что поиск закономерностей происходит не на основе свойств объекта, а между несколькими событиями. Последовательность или последовательная ассоциация позволяет найти именно временные закономерности. То есть, осуществляется поиск закономерностей между событиями происходящими не одновременно, как в ассоциации, а в одно время. Иными словами, это задача нахождения последовательных шаблонов. Прогнозирование. Здесь оценивается особенность исторических данных или будущие значения целевых численных показателей. Оценивание и визуализация представляют собой предсказание непрерывных значений признака и создание графического образа анализируемых данных. Подведение итогов — описание определенных групп объектов из предмета исследования. 2. Виды анализов и их практическое применение Корреляционный анализ. Данный анализ применяется для количественной оценки взаимосвязи двух наборов данных, представленных в безразмерном виде. Обычно вычисляют коэффициент корреляции Пирсона, который отражает степень зависимости между двумя множествами данных: (1.1) х и у — значения признаков, n — число пар данных. Варианты связи, указывающие на отсутствие или наличие линейной связи между признаками: Большие значения из одного набора данных связаны с большими значениями другого набора — наличие прямолинейной связи; Малые значения в одном наборе и большие в другом — отрицательная связь; Данные двух диапазонов никак не связаны — отсутствие линейной связи; Регрессионный анализ. Основная его особенность это получение конкретных сведений о форме и характере зависимости между переменными. Он включает в себя несколько этапов, некоторые из них: формулировка задачи, определение зависимых и независимых переменных, сбор данных, определение функции регрессии и предсказание значений зависимой переменной. Выяснение действия на переменную определяется функцией регрессии. Уравнение регрессии имеет вид: Y= a+b*x (1.2) Если знак при коэффициенте регрессии положительный — связь с независимой переменной будет положительная, если отрицательный, то, соответственно, отрицательной. Все значения, полученные данным методом являются средними. 2.1 Деревья решений Метод деревьев решений являтся одним из наиболее популярным. Принцип данного метода заключается в том, что если зависимая переменная принимает дискретные значения, то при помощи метода дерева решений решается задача классификации, если переменная принимает непрерывные значения, то метод устанавливает зависимость переменной от независимых переменных, то есть, решает задачу прогнозирования. Download 0.49 Mb. Do'stlaringiz bilan baham: |
ma'muriyatiga murojaat qiling