Методы интеллектуального анализа данных


Download 183.72 Kb.
bet1/7
Sana24.12.2022
Hajmi183.72 Kb.
#1057603
  1   2   3   4   5   6   7
Bog'liq
Методы интеллектуального анализа данных


Методы интеллектуального анализа данных
Для повышения эффективности системы управления и мониторинга интермодальных перевозок в работе предлагается использование всего спектра методов интеллектуального анализа и обработки данных. В общем случае процесс состоит из следующих этапов: отбор данных, очистка, обогащение, кодирование, извлечение знаний и сообщение (рис. 2.2).

Рис. 2.2. Процесс интеллектуального анализа данных
Ввиду актуальности систем поддержки многомерного оперативного анализа данных (OLAP-систем) в диссертации рассмотрены концептуальные вопросы о теоретических основах О LAP и технологии проектирования OLAP-приложений с математической точки зрения, а также вопросов практического характера, которые вызывает повышенный интерес в области анализа закономерностей развития международных перевозок.
Измерения играют роль индексов, используемых для идентификации значений показателей, находящихся в ячейках гиперкуба. Комбинация членов различных измерений играют роль координат, которые определяют значение показателя (рис. 2.3). Поскольку для куба может быть определено несколько показателей, то комбинация членов всех измерения будет определять несколько ячеек со значениями каждого из показателей.
Для анализа международных перевозок показатели, измерения, объекты и ячейки приведены ниже.

Рис. 2.3. Трехмерный OALP-куб с простыми измерениями
Показатели: W — объем перевозок, V — количество рейсов
Измерения: С — Страны, R — регионы, Р — перевозчики, G — типы груза, S — посты, X — экспорт/импорт, Т — временное измерение.
Объекты:
С — Страны (порядка 140 — Австрия, Германия, Польша, ..., Финляндия),
R — регионы (89 — Адыгея, Карелия, Ямало-Ненецкий округ, ...),
Р — перевозчики (порядка 200 на 1-ом уровне),
G — типы груза (99 — древесина, пластмассы,..., одежда и др.),
S — посты (порядка 100 — Адлер, Балашиха, Мценск, ...),
Т — временное измерение (по каждому дню имеется статистика с 2000 по 2010 год).
При этом Р представляют иерархическую структуру.

  • 1 уровень (PC) — все перевозчики страны или региона;

  • 2 уровень (РСО) — транспортные компании выбранной страны или региона;

  • 3 уровень (Q) — транспортное средство выбранной транспортной компании.

Страны и типы грузов также имеют сложившуюся иерархическую структуру. Для временной шкалы — Дни, Месяцы, Кварталы, Годы — наиболее часто используемые в анализе (возможно также часы — для исследования интенсивности и дни недели).
Ячейка W — непосредственно объем грузов, V — количество рейсов (по БД АСМАП для каждой непустой ячейки принимает значение 1).
Такой подход позволит более оперативно реализовывать новые запросы, направленные на выявление закономерностей на рынке транспортных услуг.
Технологии хранилищ данных и интеллектуального анализа данных
Понятие «хранилища данных» было введено Б. Инмоном, определившим его как предметно-ориентированное, привязанное ко времени и неизменяемое собрание данных для поддержки принятия управленческих решений. Хранилище данных — это репозиторий, содержащий непротиворечивые консолидированные исторические данные корпорации, отражающие ее деятельность за достаточно продолжительный период времени, а также данные о внешней среде ее функционирования.
Информационные хранилища отличаются от интеллектуальных баз данных тем, что представляют собой хранилища значимой информации, регулярно извлекаемой из оперативных баз данных. Хранилище баз данных — это предметно-ориентированное, интегрированное, привязанное ко времени, неизменяемое собрание данных, применяемых для поддержки процессов принятия управленческих решений.
Технологии извлечения знаний из хранилищ данных базируются на методах статистического анализа и моделирования, ориентированных на поиск моделей и отношений, скрытых в совокупности данных. Для извлечения значимой информации из хранилищ данных имеются специальные методы: OLAP-анализ, Data Mining, Knoweledge Discovery, основанные на использовании методов математической статистики, нейронных сетей, индуктивных методов построения деревьев решений и др. Большей сложностью отличаются и запросы к хранилищу, которые обусловливают необходимость обеспечения высокой производительности обработки запросов и масштабируемости используемых алгоритмов.
При загрузке в хранилище новых данных должна выполняться их верификация, включающая:

  • выявление и устранение ошибок;

  • выявление и разрешение противоречий в данных, поступающих из разных источников;

  • выявление и устранение избыточности в данных и т. д.

В архитектурном плане хранилище данных может включать два или три уровня. В первом случае на верхнем уровне располагается обобщенная информация для руководителей всех подразделений предприятия, которым требуются средства анализа данных. Нижний уровень занимают источники данных, в том числе БД оперативной информации.
Анализ данных в хранилищах базируется на технологиях интеллектуального анализа данных (НАД). Целью НАД является извлечение знаний из данных, т. е. обнаружение в исходных данных ранее неизвестных нетривиальных практически полезных и доступных для интерпретации знаний, необходимых для принятия решений в различных предметных областях.
Методы НАД реализуются в технологиях:

  • интерактивной аналитической обработки данных (On-Line Analytical Processing — О LAP);

  • глубинного анализа данных (Data Mining — DM);

  • визуализации данных.

Технология OLAP и многомерные модели данных. Технология OLAP ориентирована на обработку нерегламентированных запросов к хранилищам данных. Создание хранилищ данных вызвано тем, что анализировать данные OLAP-систем напрямую невозможно или затруднительно, так как они являются разрозненными, хранятся в форматах различных СУБД и в разных сегментах корпоративной сети. Основная задача хранилища — представление данных для анализа в одном месте в рамках простой и понятной структуры.
Главная цель анализа данных — это качественная и количественная оценка достигнутых результатов и динамики деятельности компании. Среди принципов OLAP, сформулированных Э. Коддом, центральное место занимает поддержка многомерного представления данных. В многомерной модели данных БД формируется в виде одного или нескольких кубов данных (гиперкубов). Осями гиперкуба служат основные атрибуты анализируемого бизнес-процесса.

Download 183.72 Kb.

Do'stlaringiz bilan baham:
  1   2   3   4   5   6   7




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling