Обобщенная архитектура систем хранения и анализа больших данных

bet	1/3
Sana	19.06.2023
Hajmi	45.61 Kb.
	#1608137

1 2 3

Bog'liq
Серебряков М.А. ПИм-1702а

2.3 Обобщенная архитектура систем хранения и анализа больших данных

26
узле вычислений, коммуникация между подпроцессами. Примерами
инфраструктур распределенного программирования являются Apache Thrift,
Zookeeper.
Инструменты планирования служат для автоматизации повторяющихся
заданий. Например, запуск задач MapReduce при появлении нового набора
данных. Представителями данной группы являются Hadoop YARN.
Инструменты сравнительного анализа служат для оптимизации
инфраструктур больших данных за счет использования стандартизированных
профилей. Каждый профиль строится на основе определенного набора
инструментов для хранения и обработки больших данных.
2.3 Обобщенная архитектура систем хранения и анализа больших данных
Любая информационная система по хранению и анализу больших данных
должна строиться на определенной аппаратно-программной архитектуре.
Существует обобщенная архитектурная схема приложений больших данных,
определяющая технологический стек больших данных (big data tech stack). В
общем случае архитектура больших данных может быть представлена в виде,
изображенном на рисунке 2.4 [69].

27
Рисунок 2.4 – Архитектура системы хранения и анализа больших данных
Опишем уровни представленной архитектуры более подробно.
Уровень источников данных (Data Sources). Для предприятий обычно
доступны несколько внутренних и внешних источников данных. При этом
существует требования, чтобы перед записью данные должны быть очищены,
верифицированы, масштабированы.
Данные могут поставляться в различных форматах: результаты запросов к
реляционным базам данных и хранилищам данных, сообщения электронной
почты, XML, JSON, HTML, мгновенные сообщения, видео и аудио данные,
форматы документов офисных приложений (Word, Excel, pdf), а также
потоковые данные.
Как уже отмечалось выше данные источники характеризуются большой
скоростью выдачи данных, большим разнообразием форматов, большим
объемом данных.
Слой загрузки данных (Ingestion Layer). Слой загрузки (Рисунок 2.5) –
новый слой обработки данных предприятия. Этот слой несет ответственность за

28
отделение шума от соответствующей информации. Алгоритмы этого слоя
должны иметь возможность проверять, очищать, преобразовывать, сокращать и
агрегировать данные в технический стек больших данных для дальнейшей
обработки. Это новое промежуточное программное обеспечение, которое
должно быть масштабируемым, отказоустойчивым, гибким и регулирующим в
архитектуре больших данных. В соответствии с процессом Data Science ошибки
в данном слое могут свести на нет всю дальнейшую работу.
Уровень загрузки загружает окончательную релевантную информацию
без шума в распределенный уровень хранения Hadoop. Алгоритмы этого уровня
должны проверять, очищать, преобразовывать, сокращать и интегрировать
данные в технологический стек больших данных для дальнейшей обработки.

Download 45.61 Kb.

Do'stlaringiz bilan baham:

1 2 3