Aparat darajasida paralellikni taminlash usullari”


Download 0.57 Mb.
bet5/13
Sana29.01.2023
Hajmi0.57 Mb.
#1140037
1   2   3   4   5   6   7   8   9   ...   13
Bog'liq
911-20 parallellash11

MapReduce tizimi


MapReduce tizimi 2004 yilda Google-da Jeffri Din va Sanjay Gemavat tomonidan taklif qilingan (Dean and Ghemawat 2004). Uning kelib chiqishi birinchi marta 1980yillarning boshida tasvirlangan kontseptual jihatdan o'xshash yondashuvlarga borib taqaladi. MapReduce ramkasidan foydalanish bizda mavjud bo'lgan tahlil muammosini ramka qo'llab-quvvatlaydigan operatsiyalarga aylantirishni talab qiladi bular xaritalash va kamaytirish. "Xarita" operatsiyasi kirishni oladi va topshiriqni bir nechta (parallel) komponentlarga ajratadi va "kamaytirish" operatsiyasi parallel
"xaritalangan" vazifalar natijalarini birlashtiradi va yakuniy natijani ishlab chiqaradi.MapReduce ramkasidan foydalanish uchun biz operatsiyalarni xaritalash va qisqartirish va ushbu ikki operatsiyani amalga oshirish uchun vazifalarimizni ajratishimiz kerak.

Hadoop taqsimlangan fayl tizimi


Hadoop taqsimlangan fayl tizimi (Apache Hadoop n.d.) Hadoop klasterining barcha tugunlari (mashinalari) boʻylab maʼlumotlarni saqlaydigan taqsimlangan fayl tizimidir.40 HDFS katta maʼlumotlar fayllarini turli tugunlar tomonidan boshqariladigan kichikroq bloklarga (maʼlumotlar boʻlaklariga) ajratadi. klasterda. Har bir blok, shuningdek, hisoblash tugunlari ishlamay qolgan taqdirda ham ma'lumotlarning to'liq nusxasi mavjud bo'lishini ta'minlashga urinish sifatida bir nechta tugunlar bo'ylab takrorlanadi. Blok o'lchami, shuningdek, blokdagi replikatsiyalar soni HDFS-da fayllarni yaratishda foydalanuvchilar tomonidan to'liq moslashtiriladi. Odatiy bo'lib, blok o'lchami replikatsiya koeffitsienti 3 bo'lgan 64 MB ga o'rnatiladi, ya'ni tizim hech qanday ma'lumotni yo'qotmasdan kamida ikkita bir vaqtning o'zida tugun xatosiga duch kelishi mumkin. HDFS shuningdek, nosozliklarni faol ravishda kuzatib boradi va har bir blok uchun replikatsiyalar soni doimo foydalanuvchi tomonidan belgilangan sozlamalarda qolishiga ishonch hosil qilish uchun muvaffaqiyatsiz tugunlardagi bloklarni qayta takrorlaydi. Shunday qilib, agar tugun ishlamay qolsa va ba'zi ma'lumotlarning faqat ikkita nusxasi mavjud bo'lsa, tizim ushbu ma'lumotlarni tezda ishlaydigan tugunga ko'chiradi va shu bilan nusxalar sonini yana uchtaga oshiradi. Ushbu dinamik replikatsiya Hadoop-da xatolarga chidamlilikning asosiy mexanizmi hisoblanadi.
E'tibor bering, ma'lumotlar bloklari ko'paytiriladi va bir nechta mashinalar bo'ylab taqsimlanadi. Bu foydalanuvchilar uchun muammo tug'dirishi mumkin, chunki agar ular ma'lumotlarni qo'lda boshqarishi kerak bo'lsa, ular, masalan, katta ma'lumotlar faylini olish uchun bir nechta mashinaga kirishlari kerak bo'lishi mumkin. Yaxshiyamki, Hadoop ushbu murakkablikni muammosiz boshqarish uchun infratuzilmani, jumladan buyruq qatori dasturlarini, shuningdek, foydalanuvchilar mahalliy fayl tizimi kabi HDFS bilan ishlash uchun foydalanishi mumkin bo'lgan APIni taqdim etadi. Masalan, ls va mkdir kabi oddiy Linux buyruqlarini ishga tushirish va HDFS da katalog yaratish yoki hatto Linux fayl tizimida bo'lgani kabi fayl tarkibini tekshirish uchun ham foydalanish mumkin. Quyidagi kodda HDFS bilan ishlashning ba'zi misollari ko'rsatilgan.



# Creating a folder hadoop dfs -mkdir /hadoopiseasy


# Upload a CSV file from our local machine to HDFS hadoop dfs -put importantdata.csv /hadoopiseasy


# Listing all files under hadoopiseasy folder hadoop dfs -ls
/hadoopiseasy
# Download a file to our local machine hadoop dfs

-get /hadoopiseasy/importantdata.csv



1.2. 1-rasm

Download 0.57 Mb.

Do'stlaringiz bilan baham:
1   2   3   4   5   6   7   8   9   ...   13




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling