Аналитика больших данных – жизненный цикл данных

Download 54.39 Kb.

bet	6/7
Sana	28.12.2022
Hajmi	54.39 Kb.
	#1069924

1 2 3 4 5 6 7

Bog'liq
Аналитика больших данных – жизненный цикл данных

Data Munging
Хранилище данных

Получение данных
Этот раздел является ключевым в жизненном цикле больших данных; он определяет, какой тип профилей потребуется для доставки итогового продукта данных. Сбор данных является нетривиальным шагом процесса; обычно он включает сбор неструктурированных данных из разных источников. В качестве примера можно привести написание сканера для получения отзывов с веб-сайта. Это включает в себя работу с текстом, возможно, на разных языках, обычно требующих значительного времени для завершения.
Data Munging
Когда данные извлекаются, например, из Интернета, они должны храниться в удобном для использования формате. Чтобы продолжить с примерами обзоров, давайте предположим, что данные извлекаются с разных сайтов, каждый из которых по-разному отображает данные.
Предположим, что один источник данных дает обзоры с точки зрения рейтинга в звездах, поэтому его можно считать отображением для переменной отклика y ∈ {1, 2, 3, 4, 5} . Другой источник данных дает обзоры с использованием системы двух стрелок, одна для голосования «за», а другая для голосования «за». Это подразумевало бы переменную ответа вида y ∈ {положительный, отрицательный} .
Чтобы объединить оба источника данных, необходимо принять решение, чтобы сделать эти два представления ответов эквивалентными. Это может включать преобразование первого отклика представления источника данных во вторую форму, считая одну звезду отрицательной и пять звезд положительной. Этот процесс часто требует больших временных затрат для обеспечения хорошего качества.
Хранилище данных
Как только данные обработаны, их иногда необходимо сохранить в базе данных. Технологии больших данных предлагают множество альтернатив в этом отношении. Наиболее распространенной альтернативой является использование файловой системы Hadoop для хранения, которая предоставляет пользователям ограниченную версию SQL, известную как язык запросов HIVE. Это позволяет выполнять большинство задач аналитики аналогично тому, как это делается в традиционных хранилищах данных BI, с точки зрения пользователя. Другими вариантами хранения, которые следует учитывать, являются MongoDB, Redis и SPARK.
Эта стадия цикла связана со знаниями человеческих ресурсов с точки зрения их способности реализовывать различные архитектуры. Модифицированные версии традиционных хранилищ данных все еще используются в крупномасштабных приложениях. Например, teradata и IBM предлагают базы данных SQL, которые могут обрабатывать терабайты данных; Решения с открытым исходным кодом, такие как postgreSQL и MySQL, все еще используются для крупномасштабных приложений.
Несмотря на различия в работе различных хранилищ в фоновом режиме, на стороне клиента большинство решений предоставляют SQL API. Следовательно, хорошее понимание SQL по-прежнему является ключевым навыком для анализа больших данных.
Этот этап априори представляется наиболее важной темой, на практике это не так. Это даже не существенная стадия. Можно реализовать решение для больших данных, которое будет работать с данными в реальном времени, поэтому в этом случае нам нужно только собрать данные для разработки модели, а затем реализовать ее в режиме реального времени. Таким образом, не было бы необходимости формально хранить данные вообще.

Download 54.39 Kb.

Do'stlaringiz bilan baham:

1 2 3 4 5 6 7