Hadoop taqsimlangan fayl tizimi: ishonchli, arzon narxlardagi va yuqori mahsuldorlikni saqlash klasteri, bu bog‘langan fayllarni mashinalar bo‘ylab boshqarishni osonlashtiradi.
MapReduce mexanizmi: parallel taqsimlangan ma‘lumotlarni qayta ishlash uchun MapReduce algoritmini yuqori samaradorlik bilan amalga oshirish.
Hadoop juda ko‘p miqdordagi strukturalangan va strukturalanmagan ma’lumotlarni qayta ishlashga mo‘ljallangan (terabaytdan petabaytgacha) va odatdagi server ustunlarida Hadoop klasteri sifatida amalga oshiriladi. Serverlar klasterga dinamik ravishda qo‘shilishi yoki olib tashlanishi mumkin, chunki Hadoop “o‘z-o‘zini tiklash” uchun yaratilgan. Boshqacha qilib aytganda, Hadoop o‘zgarishlarni, shu jumladan qulashlarni aniqlay oladi va ushbu o‘zgarishlarga moslasha oladi va uzluksiz ishlashni davom ettiradi.
Endi Hadoop-da qo‘llanilgan Hadoop taqsimlangan fayl tizimi (HDFS) va MapReduce-ni batafsil ko‘rib chiqamiz.
Hadoop taqsimlangan fayl tizimi (HDFS)
Hadoop taqsimlangan fayl tizimi - bu katta ma’lumot muhitida fayllarni boshqarish uchun umumiy xatolarga chidamli, klasterli yondashuv. HDFS fayllar uchun so‘nggi manzil emas. Aksincha, bu ma’lumotlarning yuqori hajmi va tezligi uchun zarur bo‘lgan noyob imkoniyatlar to‘plamini taqdim etadigan ma’lumotlar xizmati. Ma’lumotlar boshqa fayl tizimlarida doimiy o‘qish yozish operatsiyalari emas, balki bir marta yozilgan va keyin ko‘p marta o‘qilganligi sababli, HDFS katta ma’lumot tahlilini qo‘llab-quvvatlash uchun juda yaxshi tanlovdir. Xizmat standart apparat klasterida ishlaydigan “NameNode” va bir nechta “ma’lumotlar tugunlari” ni o‘z ichiga oladi va butun klaster ma’lumotlar markazidagi bitta jismoniy shkafga joylashtirilganida eng yuqori ishlash darajasini ta’minlaydi. Asosan, NameNode ma’lumotlar fizik qayerda saqlanishini kuzatib boradi. 9.1-rasmda HDFS ning asosiy arxitekturasi ko‘rsatilgan.
9.1-rasm. Hadoop klasterini uskunada tasvirlanishi.
Do'stlaringiz bilan baham: |