Методические указания к лабораторным занятиям Интеллектуальные системы обработки информации и машинное обучение Ставрополь, 2017
Download 4.3 Mb. Pdf ko'rish
|
78Metod IntelectSysObrInf 10.05.03 12.02.2017
Виртуальные хранилища данных. Неизбежной проблемой
при использовании хранилищ данных в корпоративных аналитических системах является избыточность. Она снижает эффективность использования дискового пространства и оперативной памяти компьютерной системы, а при очень больших объемах хранящейся и обрабатываемой информации может вызвать снижение производительности, возрастание времени ожидания отклика на запрос и даже привести к полной неработоспособности системы. Избыточность в той или иной степени характерна как для реляционных, так и для многомерных хранилищ. Ситуация усугубляется еще и тем, что ХД хранят историческую информацию и реализуют принцип неизменчивости данных. То есть в отличие от обычных систем оперативной обработки (OLTP-систем), где хранятся лишь актуальные данные, а данные, утратившие актуальность, уничтожаются, ХД могут только пополняться новыми данными, а удаление исторических данных не производится. Кроме того, часто требуется хранить большие объемы агрегированных данных. В совокупности эти факторы могут привести к «взрывному» росту объемов ХД. 15 7 Преодолеть проблему избыточности и даже свести ее к нулю можно путем использования виртуальных хранилищ данных (ВХД). В основе концепции виртуального ХД лежит принцип, в соответствии с которым данные из локальных источников, внешнего окружения, баз данных и учетных систем не консолидируются в единое ХД физически, а извлекаются, преобразуются и интегрируются непосредственно при выполнении запроса в оперативной памяти ПК. Фактически запросы адресуются непосредственно к источникам данных. Виртуальным хранилищем данных – это система, которая работает с разрозненными источниками данных и эмулирует работу обычного хранилища данных, извлекая, преобразуя и интегрируя данные непосредственно в процессе выполнения запроса. При работе с ВХД пользователь, можно сказать, имеет дело с «иллюзией» хранилища данных (рис.4.11). Виртуальность предполагает, что ВХД существует только до тех пор, пока работает соответствующее приложение. Как только оно завершает работу, виртуальное хранилище прекращает существование. 15 8 Рис.4.11 Виртуальное ХД. Преимущества виртуального хранилища данных. Минимизируется объем требуемой дисковой и оперативной памяти, поскольку отсутствует необходимость хранения исторических данных и многочисленных агрегированных данных для различных уровней обобщения информации. Наличие в ВХД развитого семантического слоя позволяет аналитику полностью абстрагироваться от проблем, связанных с процессом извлечения данных из разнообразных источников, и сосредоточиться на решении задач анализа данных. Появляется возможность анализа данных в OLTP-системе сразу после их поступления без ожидания загрузки в хранилище. 159 Однако концепция ВХД имеет ряд недостатков по сравнению с ХД, где информация консолидируется физически. Источники данных, информация из которых запрашивается в ВХД, могут оказаться недоступными, если доступ к ним осуществляется по сети или если изменилось место их локализации. Временная недоступность хотя бы одного из источников может привести к невозможности выполнения запроса или к искажению представленной по нему информации. Отсутствует автоматическая поддержка целостности и непротиворечивости данных, могут быть утеряны отдельные фрагменты документов и т. д. Данные в источниках хранятся в различных форматах и кодировках, что может привести к ошибкам при их обработке и к искажению информации, полученной в ответ на запрос. Например, если в текстовых файлах с разделителями используются неоднотипные разделители или в файле Excel данные в одном столбце не являются типизированными, это, скорее всего, приведет к неправильной работе аналитических алгоритмов. Из-за возможной несогласованности моментов пополнения источников данных и из-за отсутствия поддержки в них хронологии по одному и тому же запросу в различные моменты времени могут быть получены отличающиеся данные. Практически невозможна работа с историческими данными, поскольку в ВХД доступны только те данные, которые находятся в источниках в конкретный момент времени. 16 0 Поскольку некоторые типы источников данных не оптимизированы по скорости доступа к ним, извлечение данных из них занимает определенное время, что снижает скорость выполнения запросов виртуальными хранилищами. Download 4.3 Mb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling