Parallel processing of big data using Hadoop MapReduce Kh. Sh. Kuzibaev T. K. Urazmatov

Download 230,49 Kb.

bet	1/4
Sana	11.03.2023
Hajmi	230,49 Kb.
	#1261478

1 2 3 4

Bog'liq
Maqola ready english

PARALLEL PROCESSING OF BIG DATA using Hadoop MapReduce
Kh.Sh.Kuzibaev T.K.Urazmatov
Tashkent University of Information Technologies named after Muhammad Al Khorazmi
e-mail: xudayshukur66@gmail.com
Abstract
In this article, we carried out a frequency analysis of words in a historical work, which can be considered as large-scale data. For this, we implemented the process of storing large amounts of data in distributed storage systems, and analyzed the processed data using parallel computing. The Hadoop HDFS (Hadoop Distributed File System) system is used as a distributed storage system, and the Hadoop MapReduce component is used for parallel computing. In addition, in this article, the results obtained from the processing of this large volume of data using traditional calculations are also presented. Conclusions were made based on the results obtained with the help of serial calculations and parallel calculations.
Keywords: word frequency, Big Data, Hadoop HDFS, Hadoop MapReduce, parallel computing, distributed storage system

ПАРАЛЛЕЛЬНАЯ ОБРАБОТКА БОЛЬШИХ ДАННЫХ с использованием Hadoop MapReduce

Х. Ш. Кузибаев Т. К. Уразматов
Ташкентский университет информационных технологий имени Мухаммада Аль Хоразми, e-mail: xudayshukur66@gmail.com
Аннотация
В данной статье мы провели частотный анализ слов в историческом труде, который можно рассматривать как крупномасштабные данные. Для этого мы реализовали процесс хранения больших объемов данных в распределенных системах хранения, а обработанные данные проанализировали с помощью параллельных вычислений. В качестве распределенной системы хранения используется система Hadoop HDFS (Hadoop Distributed File System), а для параллельных вычислений используется компонент Hadoop MapReduce. Кроме того, в данной статье также представлены результаты, полученные в результате обработки этого большого объема данных с использованием традиционных расчетов. Выводы сделаны на основании результатов, полученных с помощью серийных расчетов и параллельных расчетов.
Ключевые слова: частота слов, большие данные, Hadoop HDFS, Hadoop MapReduce, параллельные вычисления, распределенная система хранения.

Download 230,49 Kb.

Do'stlaringiz bilan baham:

1 2 3 4