Методические указания к лабораторным занятиям Интеллектуальные системы обработки информации и машинное обучение Ставрополь, 2017


Download 4.3 Mb.
Pdf ko'rish
bet65/121
Sana27.10.2023
Hajmi4.3 Mb.
#1727451
TuriМетодические указания
1   ...   61   62   63   64   65   66   67   68   ...   121
Bog'liq
78Metod IntelectSysObrInf 10.05.03 12.02.2017

Виртуальные хранилища данных. Неизбежной проблемой 
при 
использовании 
хранилищ 
данных 
в 
корпоративных 
аналитических системах является избыточность. Она снижает 
эффективность использования дискового пространства и оперативной 
памяти компьютерной системы, а при очень больших объемах 
хранящейся и обрабатываемой информации может вызвать снижение 
производительности, возрастание времени ожидания отклика на 
запрос и даже привести к полной неработоспособности системы. 
Избыточность в той или иной степени характерна как для 
реляционных, так и для многомерных хранилищ. 
Ситуация усугубляется еще и тем, что ХД хранят историческую 
информацию и реализуют принцип неизменчивости данных. То есть в 
отличие от обычных систем оперативной обработки (OLTP-систем), 
где хранятся лишь актуальные данные, а данные, утратившие 
актуальность, уничтожаются, ХД могут только пополняться новыми 
данными, а удаление исторических данных не производится. Кроме 
того, часто требуется хранить большие объемы агрегированных 
данных. В совокупности эти факторы могут привести к «взрывному» 
росту объемов ХД. 
15



Преодолеть проблему избыточности и даже свести ее к нулю 
можно путем использования виртуальных хранилищ данных (ВХД). В 
основе концепции виртуального ХД лежит принцип, в соответствии с 
которым данные из локальных источников, внешнего окружения, баз 
данных и учетных систем не консолидируются в единое ХД 
физически, а извлекаются, преобразуются и интегрируются 
непосредственно при выполнении запроса в оперативной памяти ПК. 
Фактически запросы адресуются непосредственно к источникам 
данных. 
Виртуальным хранилищем данных – это система, которая 
работает с разрозненными источниками данных и эмулирует работу 
обычного хранилища данных, извлекая, преобразуя и интегрируя 
данные непосредственно в процессе выполнения запроса. 
При работе с ВХД пользователь, можно сказать, имеет дело с 
«иллюзией» 
хранилища 
данных 
(рис.4.11). 
Виртуальность 
предполагает, что ВХД существует только до тех пор, пока работает 
соответствующее приложение. Как только оно завершает работу, 
виртуальное хранилище прекращает существование. 
15



Рис.4.11 Виртуальное ХД. 
Преимущества виртуального хранилища данных. 
Минимизируется объем требуемой дисковой и оперативной 
памяти, поскольку отсутствует необходимость хранения исторических 
данных и многочисленных агрегированных данных для различных 
уровней обобщения информации. 
Наличие в ВХД развитого семантического слоя позволяет 
аналитику полностью абстрагироваться от проблем, связанных с 
процессом извлечения данных из разнообразных источников, и 
сосредоточиться на решении задач анализа данных. 
Появляется возможность анализа данных в OLTP-системе сразу 
после их поступления без ожидания загрузки в хранилище. 
159 


Однако концепция ВХД имеет ряд недостатков по сравнению с 
ХД, где информация консолидируется физически. 
Источники данных, информация из которых запрашивается в 
ВХД, могут оказаться недоступными, если доступ к ним 
осуществляется по сети или если изменилось место их локализации. 
Временная недоступность хотя бы одного из источников может 
привести к невозможности выполнения запроса или к искажению 
представленной по нему информации. 
Отсутствует автоматическая поддержка целостности и 
непротиворечивости данных, могут быть утеряны отдельные 
фрагменты документов и т. д. 
Данные в источниках хранятся в различных форматах и 
кодировках, что может привести к ошибкам при их обработке и к 
искажению информации, полученной в ответ на запрос. Например, 
если в текстовых файлах с разделителями используются 
неоднотипные разделители или в файле Excel данные в одном столбце 
не являются типизированными, это, скорее всего, приведет к 
неправильной работе аналитических алгоритмов. 
Из-за возможной несогласованности моментов пополнения 
источников данных и из-за отсутствия поддержки в них хронологии 
по одному и тому же запросу в различные моменты времени могут 
быть получены отличающиеся данные. 
Практически невозможна работа с историческими данными, 
поскольку в ВХД доступны только те данные, которые находятся в 
источниках в конкретный момент времени. 
16



Поскольку 
некоторые 
типы 
источников 
данных 
не 
оптимизированы по скорости доступа к ним, извлечение данных из 
них занимает определенное время, что снижает скорость выполнения 
запросов виртуальными хранилищами. 

Download 4.3 Mb.

Do'stlaringiz bilan baham:
1   ...   61   62   63   64   65   66   67   68   ...   121




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling