Методические указания к лабораторным занятиям Интеллектуальные системы обработки информации и машинное обучение Ставрополь, 2017


Download 4.3 Mb.
Pdf ko'rish
bet60/121
Sana27.10.2023
Hajmi4.3 Mb.
#1727451
TuriМетодические указания
1   ...   56   57   58   59   60   61   62   63   ...   121
Bog'liq
78Metod IntelectSysObrInf 10.05.03 12.02.2017

Хранилище данных - разновидность систем хранения, 
ориентированная на поддержку процесса анализа данных, 
обеспечивающая целостность, непротиворечивость и хронологию 
данных, а также высокую скорость выполнения аналитических 
запросов. 
139 


Применительно к решению бизнес-задач, хранилище данных  
это специальным образом систематизированная информация из 
разнородных источников (базы данных учетных систем компании
маркетинговые данные, мнения клиентов, исследования конкурентов 
и т.п.), необходимая для обработки с целью принятия стратегически 
важных решений в деятельности компании. 
Для того чтобы получить качественный прогноз, нужно собрать 
максимум информации об исследуемом процессе, описывающей его с 
разных сторон. Например, для прогнозирования объемов продаж 
может потребоваться различная и разнородная следующая 
информация (рис.2.2). 
Рис. 4.5. Хранилище данных 
Типичное ХД существенно отличается от обычных систем хранения 
данных (баз данных). 
Главным отличием являются цели их создания и использования. 
База данных играет роль помощника в оперативном управлении 
организации. Это каждодневные задачи получения актуальной 
информации: бухгалтерской отчетности, учета договоров и т.д. В 
свою очередь 
14



хранилище данных консолидирует всю необходимую информацию 
для 
осуществления 
задач 
стратегического 
управления 
в 
среднесрочном и долгосрочном периоде. Например, продажа товара и 
выписка счета производятся с использованием базы данных, а анализ 
динамики продаж за несколько лет, позволяющий спланировать 
работу с поставщиками, — с помощью хранилища данных. 
Другое важное отличие заключается в динамике изменения 
данных. Базы данных в OLTP-системах характеризуются очень 
высокой динамикой изменения записей из-за повседневной работы 
большого числа пользователей (откуда, кстати, велика вероятность 
появления противоречий, ошибок, нарушения целостности данных и 
т. д.). Что касается ХД, то данные из него не удаляются, а пополнение 
происходит в соответствии с определенным регламентом (раз в час, 
день, неделю, в определенное время). 
Важнейшим элементом ХД является семантический слой  
механизм, 
позволяющий 
аналитику 
оперировать 
данными 
посредством бизнес-терминов предметной области. Семантический 
слой дает пользователю возможность сосредоточиться на анализе и не 
задумываться о механизмах получения данных. 
Основные положения концепции ХД. 
Принято считать, что у истоков концепции ХД стоял 
технический директор компании Prism Solutions Билл Инмон, который 
в 
начале 
1990-х 
г. 
опубликовал 
ряд 
работ, 
ставших 
основополагающими для последующих исследований в области 
аналитических систем. 
Б. Инмон дал следующее определение ХД: предметно- 
ориентированный, 
интегрированный, 
неизменяемый 
и 
14



поддерживающий хронологию набор данных, предназначенный для 
обеспечения принятия управленческих решений. 
В основе концепции хранилищ данных лежат следующие 
положения (принципы): 
Предметная 
ориентированность. 
В 
данном 
случае 
подразумевается, что ХД должно разрабатываться с учетом 
специфики конкретной предметной области, а не аналитических 
приложений, с которыми его предполагается использовать. Структура 
ХД должна отражать представления аналитика об информации, с 
которой ему приходится работать. 
Интегрированность 
означает, 
что 
должна 
быть 
обеспечена возможность загрузки в ХД информации из источников, 
поддерживающих различные форматы данных и созданных в 
различных приложениях – учетных системах, базах данных, 
электронных 
таблицах 
и 
других 
офисных 
приложениях, 
поддерживающих структурированность данных (например, текстовые 
файлы с разделителями). При этом данные, допускающие различный 
формат (например, числа, дата и время), в процессе загрузки должны 
быть преобразованы к единому представлению. Кроме того, очень 
важно проверить загружаемые данные на целостность и 
непротиворечивость, обеспечить необходимый уровень их обобщения 
(агрегирования). Объем данных в хранилище должен быть 
достаточным для эффективного решения аналитических задач, 
поэтому в ХД может накапливаться информация за несколько лет и 
даже десятилетий. 
Принцип неизменчивости предполагает, что, в отличие от 
обычных систем оперативной обработки данных, в ХД 
14



данные после загрузки не должны подвергаться каким-либо 
изменениям, за исключением добавления новых данных. 
Поддержка 
хронологии 
означает 
соблюдение 
порядка 
следования записей, для чего в структуру ХД вводятся ключевые 
атрибуты Дата и Время. Кроме того, если физически упорядочить 
записи в хронологическом порядке, например в порядке возрастания 
атрибута Дата, можно уменьшить время выполнения аналитических 
запросов. 

Download 4.3 Mb.

Do'stlaringiz bilan baham:
1   ...   56   57   58   59   60   61   62   63   ...   121




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling