Chiqish ma’lumotlarini siqilishini xaritalash
MapReduce ilovasi bo'lsa ham siqilmagan ma'lumotlarni o'qiydi va yozadi, displey bosqichida oraliq chiqish siqilishi foydali bo'lishi mumkin. Xaritalarning chiqishi diskka yozilganligi va tarmoq orqali konvolyutsiya tugunlariga yuborilganligi sababli, tez siqish formatidan ( LZO , LZ 4 , Snappy ) foydalanish shunchaki uzatiladigan ma'lumotlar miqdorini kamaytirish orqali samaradorlikni oshiradi . Chiqish ma'lumotlarini siqish va siqish formati sozlamalarini xaritalashni yoqish uchun konfiguratsiya xususiyatlari 1-jadvalda keltirilgan. 4.6.
4.6-jadval. Chiqishni siqish xossalarini xaritalash.
Seriyalashtirish
Seriyalashtirish - tarmoq orqali uzatish yoki uzoq muddatli saqlash uchun tuzilgan ob'ektlarni baytlar oqimiga aylantirish jarayoni. Deserializatsiya - baytlar oqimini tuzilgan ob'ektlar to'plamiga aylantirishning teskari jarayoni.
Serializatsiya taqsimlangan qayta ishlashning ikki xil sohalarida sodir bo'ladi: jarayonlararo aloqa va uzoq muddatli saqlash.
Hadoop ichida Tizim tugunlari orasidagi jarayonlararo o'zaro ta'sirlar RPC mexanizmi (Remote tartib Qo'ng'iroqlar). RPC protokoli xabarni ikkilik oqimga aylantirish uchun ketma – ketlashtirishdan foydalanadi, u masofaviy xostga uzatiladi, bu ikkilik oqimni asl xabarga seriyadan chiqaradi. Umuman olganda, RPC seriyali formati quyidagi xususiyatlarga ega bo'lishi kerak:
Do'stlaringiz bilan baham: |