Интеллектуальный анализ данных. Data mining, text mining, web mining и их применение в цифровом бизнесе. Поисковые системы в интернете
Data Mining
Если традиционные статистические методы анализа данных нацелены главным образом на проверку гипотез, которые заранее сформулированы, a OLAP — на разведочный анализ, то методы Data Mining используются для поиска неочевидных закономерностей в больших массивах данных (рис. 7.13)[1] [2].
Рис. 7.13. Уровни знаний, извлекаемых из данных
По определению Григория Пиатецкого-Шапиро (Gregory Piatetsky-Shapiro), Data Mining — «это процесс обнаружения в “сырых” данных, ранее неизвестных и нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности»1. Часто применение совокупности методов Data Mining называют интеллектуальным анализом данных.
Data Mining объединяет методы, которые развивались в различных дисциплинах, в таких науках и исследовательских направлениях, как прикладная статистика, распознавание образов, искусственный интеллект, теория баз данных и др.
В основе методов интеллектуального анализа данных лежит информационный подход к моделированию, в котором модель строится на базе обработки данных, а не математических закономерностей. Построение информационных моделей основано на машинном обучении, когда параметры модели определяются на обучающем множестве данных, а оценка модели — на тестовом множестве.
В качестве бизнес-примера можно привести решение задачи оценки кредитоспособности заемщиков. На основе исторических данных о заемщиках (обучающей выборки) с помощью одного из методов классификации Data Mining строится классификационная модель, позволяющая отнести заемщика к классу надежных или ненадежных клиентов. Далее точность модели и ее обобщающая способность проверяются на тестовых данных. Под обобщающей способностью модели понимается ее возможность давать приемлемый уровень ошибки на всем диапазоне возможных значений исходных данных.
Выделяют пять задач анализа данных, решаемых методами Data Mining[3] [4]. Задача классификации состоит в отнесении исследуемого объекта к одному из заранее известных классов. Определение зависимостей между непрерывными числовыми переменными является задачей регрессии. Задача кластеризации заключается в поиске групп объектов, называемых кластерами, сходных между собою по совокупности описывающих их признаков и отличающихся от объектов других кластеров. Решение задачи ассоциации связано с нахождением зависимости между отдельными событиями. Задача последовательности — это поиск временных зависимостей. Кроме того, поскольку в процессе обнаружения закономерностей выявляются наиболее характерные шаблоны, то задачей
Data Mining может быть поиск отклонений от шаблонов.
Каждая из задач Data Mining может быть решена различными методами. Так, для решения задачи классификации могут быть применены модели деревьев решений, логистической регрессии, искусственные нейронные сети. Задача регрессии может решаться статистическими или нейросетевыми методами, при этом нейросети позволяют моделировать нелинейные зависимости.
Решение задач бизнес-аналитики требует, как правило, применения некоторой совокупности задач Data Mining. Так, в процессе исследования проблемы стимулирования спроса решаются задачи кластеризации с целью сегментирования покупателей, и ассоциации — с целью определения совместно покупаемых товаров.
Следует подчеркнуть, что применение метода Data Mining является одним из заключительных этапов исследования. Весь процесс анализа данных от постановки задачи до построения моделей должен выполняться на основе методологии, получившей название Knowledge Discovery in Databases (KDD) — обнаружение знаний в базах данных. KDD представляет собой полуавтоматизированный процесс исследования больших объемов данных для обнаружения в них скрытых зависимостей или шаблонов. При этом методология не требует никаких априорных предположений о характере скрытых структур и зависимостей.
Do'stlaringiz bilan baham: |