Parallel processing of big data using Hadoop MapReduce Kh. Sh. Kuzibaev T. K. Urazmatov
Download 230.49 Kb.
|
Maqola ready english
PARALLEL PROCESSING OF BIG DATA using Hadoop MapReduce Kh.Sh.Kuzibaev T.K.Urazmatov Tashkent University of Information Technologies named after Muhammad Al Khorazmi e-mail: xudayshukur66@gmail.com Abstract In this article, we carried out a frequency analysis of words in a historical work, which can be considered as large-scale data. For this, we implemented the process of storing large amounts of data in distributed storage systems, and analyzed the processed data using parallel computing. The Hadoop HDFS (Hadoop Distributed File System) system is used as a distributed storage system, and the Hadoop MapReduce component is used for parallel computing. In addition, in this article, the results obtained from the processing of this large volume of data using traditional calculations are also presented. Conclusions were made based on the results obtained with the help of serial calculations and parallel calculations. Keywords: word frequency, Big Data, Hadoop HDFS, Hadoop MapReduce, parallel computing, distributed storage system ПАРАЛЛЕЛЬНАЯ ОБРАБОТКА БОЛЬШИХ ДАННЫХ с использованием Hadoop MapReduce Х. Ш. Кузибаев Т. К. Уразматов Ташкентский университет информационных технологий имени Мухаммада Аль Хоразми, e-mail: xudayshukur66@gmail.com Аннотация В данной статье мы провели частотный анализ слов в историческом труде, который можно рассматривать как крупномасштабные данные. Для этого мы реализовали процесс хранения больших объемов данных в распределенных системах хранения, а обработанные данные проанализировали с помощью параллельных вычислений. В качестве распределенной системы хранения используется система Hadoop HDFS (Hadoop Distributed File System), а для параллельных вычислений используется компонент Hadoop MapReduce. Кроме того, в данной статье также представлены результаты, полученные в результате обработки этого большого объема данных с использованием традиционных расчетов. Выводы сделаны на основании результатов, полученных с помощью серийных расчетов и параллельных расчетов. Ключевые слова: частота слов, большие данные, Hadoop HDFS, Hadoop MapReduce, параллельные вычисления, распределенная система хранения. Download 230.49 Kb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling