Технология обработки больших данных (BigData)


Download 73.63 Kb.
bet4/9
Sana01.11.2023
Hajmi73.63 Kb.
#1738404
TuriСамостоятельная работа
1   2   3   4   5   6   7   8   9
Bog'liq
Иктисодиет ахборот коммуникация

корпоративные источники — транзакции, архивы, базы данных и т. п.;
устройства, собирающие информациюGPS-сигналы автомобилей, метеорологическое оборудование и т.п.
Совокупность методик по сбору данных и саму операцию называют Data Mining. В качестве примеров сервисов, осуществляющих процесс сбора информации, можно привести: Qlik, Vertica, Power BI, Tableau. Формат данных, как уже говорилось выше, может быть разнообразным — видео, текст, таблицы, SAS.
Если в сжатой форме описывать процесс сбора и обработки большого массива данных, то стоит выделить основные этапы:
постановка задачи для аналитической программы;
программа осуществляет сбор данных с их параллельной подготовкой (декодировка, отсев мусора, удаление нерелевантной информации);
выбор алгоритма анализа данных;
обучение программы выбранному алгоритму с дальнейшим анализом обнаруженных закономерностей.
В большинстве случаев полученные необработанные данные хранятся в так называемом «озере данных» — Data Lake. Формат и уровень структуризации информации при этом может быть разнообразным:
структурные (данные в виде строк и колонок);
частично структурированные (логи, CSV, XML, JSON-файлы);
неструктурированные (pdf-формат, формат документов и т. п.);
бинарные (формат видео, аудио и изображения).
Месторасположение «озера», как правило, находится в облаке. Так, около 72 % компаний при работе с Big Data предпочитают собственным серверам облачные. Это связано с тем, что обработка больших баз данных требует серьезные вычислительные мощности, в то время как облако значительно снижает стоимость работ. Именно по этой причине компании выбирают облачные хранилища.
Облако имеет ряд преимуществ перед собственным дата-сервисом. Из-за того, что расчет предстоящей нагрузки на инфраструктуру затруднителен, то закупка оборудования не целесообразна. Аппаратура, купленная на случай востребованности в больших мощностях, может просто простаивать, принося убытки. Если же оборудование окажется недостаточным по мощности, то его ресурсов не хватит для полноценной работы.
Облако, напротив, не имеет ограничений по объему сохраняемых в нем данных. Следовательно, оно выгодно с точки зрения экономии средств для тех компаний, нагрузка которых быстро растет, а также бизнеса, связанного с тестами различных гипотез.



Download 73.63 Kb.

Do'stlaringiz bilan baham:
1   2   3   4   5   6   7   8   9




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling