Kerakli xizmatlarni qanday ishga tushirish va virtual mashina ichida hamma narsa ishlayotganligini tekshirish
) RHIPE - Hadoop Map Reduce ichida R ni bajaring
Download 1.13 Mb.
|
r-studio
2) RHIPE - Hadoop Map Reduce ichida R ni bajaringRHIPE ( "R va Hadoop Integrated Programming Environment") bu R kutubxonasi bo'lib, foydalanuvchilarga R dasturlash tilida Hadoop MapReduce ishlarini bajarish imkonini beradi. R dasturchilari faqat R map va R kamaytirish funksiyalarini yozishlari kerak va RHIPE kutubxonasi ularni uzatadi va tegishli Hadoop Map va Hadoop Reduce vazifalarini chaqiradi. RHIPE xaritani uzatish va kirishlarni kamaytirish uchun protokol buferini kodlash sxemasidan foydalanadi. RHIPE-dan boshqa parallel R paketlardan foydalanishning afzalligi shundaki, u Hadoop bilan yaxshi integratsiyalashgan va HDFS -dan foydalangan holda bir qator mashinalar klasterida ma'lumotlarni tarqatish sxemasini taqdim etadi - bu nosozliklarga chidamliligini ta'minlaydi va protsessordan foydalanishni optimallashtiradi. RHIPE o'rnatish uchta asosiy qismdan iborat: masofaviy kompyuter, bir yoki bir nechta R-session Unix serverlari va Hadoop bilan ishlaydigan Unix klasteri. Unix serveri va Hadoop Unix klasterida R va RHIPE ishlaydi. Ishlab chiquvchilar masofaviy kompyuterda ishlashlari va R-sessiya serverlaridan biriga kirishlari mumkin. Bu RHIPE buyruqlarini barcha dasturlash amalga oshiriladigan asosiy baza deb atash mumkin. Hadoop klasteri uchun moʻljallangan boʻlinish, analitik usullar yoki rekombinatsiya uchun ishlab chiquvchi yozadigan R buyruqlari RHIPE buyruqlari orqali uzatiladi. R-sessiya serverlari Hadoop klaster serverlaridan alohida bo'lishi mumkin yoki Hadoop klasteridagi serverlarning bir qismi bo'lishi mumkin. R-sessiya serveri Hadoop klasterida joylashgan deylik. Bunday holda, RHIPE Hadoop vazifalari R sessiyalari bilan raqobatlashmasligi uchun R sessiyasi dasturlashni himoya qilish uchun Hadoop konfiguratsiyasida ba'zi ehtiyot choralarini ko'rish kerak. Bu erda amalga oshirilishi mumkin bo'lgan qadamlardan biri R sessiyasi bilan bog'langan barcha fayllarni, jumladan .RData va faylni hamda R tomonidan o'qiladigan yoki yoziladigan fayllarni o'z ichiga olgan fayl serverini klasterga o'rnatishdir. Ehtiyot choralari bo'lsa ham, RHIPE Hadoop ishlari R seanslari bilan raqobatlashmasligiga to'liq kafolat berish mumkin emas, shuning uchun eng xavfsiz tikish R-sessiya serverlarini ajratishdir. Masofaviy kompyuterlar foydalanuvchilar tomonidan ta'minlanishi kerak. Masofaviy kompyuter aslida faqat aloqa qurilmasi bo'lib, har qanday operatsion tizimda ishlashi mumkin. SSH protokoli R-sessiya serverlari va Hadoop klasteri bilan aloqa qilish uchun masofaviy kompyuterlar tomonidan foydalaniladigan standart protokoldir. SSH asosan buyruqlarni bajarish va/yoki fayllarni uzatish uchun masofaviy kompyuterga kirish uchun ishlatiladi. Bunday holda, SSH ham kirish, ham chiqishga ega R sessiyasi buyruq satri oynasini va grafiklarni ko'rsatadigan alohida oynani qo'llab-quvvatlaydi. Hadoop klasteri ma'lumotlarni tahlil qilish uchun javobgardir. R buyruqlari RHIPE-ga beriladi, ular Hadoop-ga uzatiladi va natijalar Hadoop tomonidan HDFS-ga yoziladi. Tahlil katta va murakkab ma'lumotlar bo'yicha amalga oshirilganda, ko'pincha rekombinatsiya usulining natijalaridan nisbatan kichik ma'lumotlar to'plami hosil bo'ladi va/yoki chiqishni qo'shimcha qayta ishlash kerak bo'lishi mumkin. Ba'zi hollarda chiqishlar masofaviy kompyuterda tahlil qilish uchun etarlicha kichik bo'lishi mumkin. RHIPE HDFS dan R sessiyasining R global muhitiga chiqishlarni yozish uchun yordam beradi. Chiqishlar .RDATA faylida ma'lumotlar to'plamiga aylanadi. Hadoop-da ikkita asosiy hisoblash operatsiyalari Map va Reduce hisoblanadi. Xarita asosiy ishning kichik to'plamlari bo'yicha parallel hisoblashlarni quyi to'plamlar o'rtasida hech qanday aloqasiz amalga oshirish orqali analitik usulda hisoblashni amalga oshiradi. Reduce Xarita hisoblari natijalarini oladi va rekombinatsiya hisoblarini ishga tushiradi. Bo'linish Xarita va kamaytirish orqali amalga oshirilishi mumkin va ma'lumotlarni tahlil qilish boshida ma'lumotlarni R ga o'qishning bir qismi bo'lishi mumkin. Hadoop-da Map and Reduce-dan foydalanish kalit-qiymat juftliklaridan foydalanishni ham o'z ichiga oladi. Ushbu misolni ko'rib chiqing: R kodi Xarita operatsiyasiga har bir kichik to'plam chiqishiga kalit qo'yishni buyuradi. Natijada kalit-qiymat juftligi hosil bo'ladi, bu erda qiymat chiqish hisoblanadi. Har bir chiqish noyob kalit bilan bog'lanishi mumkin; barcha chiqishlar bir xil kalit bo'lishi mumkin yoki bitta kalit bir nechta chiqishlar bilan bog'lanishi mumkin. Qisqartirish operatsiyasi bajarilishi kerak bo'lganda, u kalit-qiymat juftlarini kalitlarga asoslangan holda yig'adi, bu esa guruhlarga aylanadi. Keyin R rekombinatsiya kodi har bir guruhning qiymatlariga mustaqil ravishda qo'llaniladi, shuning uchun kod turli guruhlarda parallel ravishda ishlaydi. Shu tarzda, rekombinatsiya usuli sezilarli moslashuvchanlik bilan ta'minlanadi. Download 1.13 Mb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling