Обобщенная архитектура систем хранения и анализа больших данных
Рисунок 2.5 – Роль уровня загрузки данных в архитектуре приложений хранения и анализа больших данных Уровень источников данных
Download 45.61 Kb. Pdf ko'rish
|
Серебряков М.А. ПИм-1702а
Рисунок 2.5 – Роль уровня загрузки данных в архитектуре приложений хранения и анализа больших данных Уровень источников данных Уровень источников данных Идентификация Фильтрация Валидация Понижение шума Трансформация Сжатие Интеграция NoSQL HDFS 29 Архитектурные шаблоны слоя загрузки описывают решения часто встречающихся проблем источников данных с точи зрения влияния на уровень загрузки. Эти решения могут быть выбраны на основе требований к производительности, масштабируемости и доступности. Мы рассмотрим эти шаблоны (которые показаны на рисунке 3-1) в последующих разделах. В этой главе мы рассмотрим следующие распространенные шаблоны загрузки пакетных и потоковых данных [69]: шаблон извлечения данных из множества источников (Multisource Extractor Pattern) является подходом для эффективного использования нескольких типов источников данных; шаблон преобразователя протокола (Protocol Converter Pattern). В этом шаблоне используется посредник протокола для обеспечения абстракции для входящих данных с разных уровней протокола; шаблон многоцелевого назначения (Multidestination Pattern): этот шаблон используется в сценарии, когда слой загрузки должен переносить данные в несколько компонентов хранения, таких как распределенная файловая система Hadoop, витрины данных или аналитические механизмы реального времени; шаблон преобразования «точно в срок» (Just-in-Time Transformation Pattern). Большие объемы неструктурированных данных могут быть загружены в пакетном режиме с использованием традиционных инструментов и методов ETL (извлечения, передачи и загрузки). Однако данные преобразуются только тогда, когда это необходимо для экономии времени вычислений; шаблоны потоковой передачи в реальном времени (Real-Time Streaming patterns). Некоторые бизнес-проблемы требуют мгновенного анализа данных, поступающих на предприятие. В этих условиях необходимы загрузка и анализ данных в режиме реального времени. Уровень распределенного хранения (Distributed (Hadoop) Storage Layer) обеспечивает надежное, масштабируемое окружение для вычисления 30 параллельных алгоритмов обработки больших данных. Распределенная файловая система Hadoop является основным элементом данного уровня. Непосредственное управление доступом в распределённым данным осуществляют NoSQL базы данных, рассматриваемые ниже. Инфраструктурный уровень (Hadoop Infrastructure Layer) – уровень, поддерживающий уровень хранения, то есть физическую инфраструктуру. Инфраструктурный уровень является основополагающим для работы и масштабируемости архитектуры больших данных. Для поддержки неожиданного или непредсказуемого объема, скорости или разнообразия данных физическая инфраструктура для больших данных должна отличаться от инфраструктуры для традиционных реляционных данных. Уровень физической инфраструктуры Hadoop (Hadoop physical infrastructure layer – HPIL) основан на модели распределенных вычислений. Это означает, что данные физически хранятся на многих местах и связываются вместе через сети и распределенную файловую систему. Это архитектура «без Download 45.61 Kb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling