Технология обработки больших данных (BigData)
Download 73.63 Kb.
|
Иктисодиет ахборот коммуникация
корпоративные источники — транзакции, архивы, базы данных и т. п.;
устройства, собирающие информацию — GPS-сигналы автомобилей, метеорологическое оборудование и т.п. Совокупность методик по сбору данных и саму операцию называют Data Mining. В качестве примеров сервисов, осуществляющих процесс сбора информации, можно привести: Qlik, Vertica, Power BI, Tableau. Формат данных, как уже говорилось выше, может быть разнообразным — видео, текст, таблицы, SAS. Если в сжатой форме описывать процесс сбора и обработки большого массива данных, то стоит выделить основные этапы: постановка задачи для аналитической программы; программа осуществляет сбор данных с их параллельной подготовкой (декодировка, отсев мусора, удаление нерелевантной информации); выбор алгоритма анализа данных; обучение программы выбранному алгоритму с дальнейшим анализом обнаруженных закономерностей. В большинстве случаев полученные необработанные данные хранятся в так называемом «озере данных» — Data Lake. Формат и уровень структуризации информации при этом может быть разнообразным: структурные (данные в виде строк и колонок); частично структурированные (логи, CSV, XML, JSON-файлы); неструктурированные (pdf-формат, формат документов и т. п.); бинарные (формат видео, аудио и изображения). Месторасположение «озера», как правило, находится в облаке. Так, около 72 % компаний при работе с Big Data предпочитают собственным серверам облачные. Это связано с тем, что обработка больших баз данных требует серьезные вычислительные мощности, в то время как облако значительно снижает стоимость работ. Именно по этой причине компании выбирают облачные хранилища. Облако имеет ряд преимуществ перед собственным дата-сервисом. Из-за того, что расчет предстоящей нагрузки на инфраструктуру затруднителен, то закупка оборудования не целесообразна. Аппаратура, купленная на случай востребованности в больших мощностях, может просто простаивать, принося убытки. Если же оборудование окажется недостаточным по мощности, то его ресурсов не хватит для полноценной работы. Облако, напротив, не имеет ограничений по объему сохраняемых в нем данных. Следовательно, оно выгодно с точки зрения экономии средств для тех компаний, нагрузка которых быстро растет, а также бизнеса, связанного с тестами различных гипотез. Download 73.63 Kb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling