Local FileSystem
Hadoop LocalFileSystem klassi mijoz tomonida nazorat summasini tekshirishni amalga oshiradi. Bu shuni anglatadiki, fayl nomi bilan atalgan fayl yozilsa, fayl tizimi mijozi shaffof tarzda bir xil katalogda yashirin .filename faylini yaratadi. .filename. crc faylning har bir qismi uchun nazorat summalari bilan. Fragment hajmi, HDFS da bo'lgani kabi, xususiyati bilan belgilanadi io.bayts.per.checksum sukut bo'yicha 512 bayt. Bo'lak hajmi metadata sifatida saqlanadi . crc , shuning uchun fragment o'lchami o'zgartirilgandan keyin ham fayl to'g'ri o'qilishi mumkin. Tekshirish summalari fayl o'qilganda va LocalFileSystem xatosiga duch kelganda tekshiriladi. ChecksumException ni chiqaradi .
Tekshirish summalarini hisoblash nisbatan arzon ( Java u platforma kodida amalga oshiriladi) - qoida tariqasida, o'qish yoki yozish vaqti bir necha foizga oshadi. Ko'pgina ilovalarda bu ma'lumotlar yaxlitligi uchun to'lash uchun past narx hisoblanadi. Biroq, agar kerak bo'lsa, nazorat summalari o'chirib qo'yilishi mumkin - masalan, agar ularni hisoblash asosiy fayl tizimiga kiritilgan bo'lsa. Buning uchun siz RawLocalFileSystem dan foydalanishingiz kerak LocalFileSystem o'rniga . _ Ilova bo'ylab global miqyosda almashtirishni amalga oshirish uchun URI file dasturini o'zgartirish kifoya xususiyatini o'rnatish orqali fs.fayl.impl qiymati org.apache.Hadoop. fs . RawLocalFileSystem . Shuningdek, siz RawLocalFileSystem ni to'g'ridan-to'g'ri yaratishingiz mumkin , bu faqat individual o'qishlar uchun nazorat summasini tekshirishni o'chirib qo'yishda qulay bo'lishi mumkin , masalan:¬
Siqish
Fayllarni siqish ikkita asosiy afzalliklarga ega: u fayllarni saqlash uchun zarur bo'lgan disk maydonini kamaytiradi va ma'lumotlarni tarmoq bo'ylab, diskdan va diskdan uzatishni tezlashtiradi. Katta hajmdagi ma'lumotlar bilan ikkala tejash ham Hadoop -da siqishni ishlatishni diqqat bilan ko'rib chiqishingiz kerak bo'lgan darajada muhimdir.
Turli xil xususiyatlarga ega bo'lgan juda ko'p turli formatlar, vositalar va siqish algoritmlari mavjud. Jadvalda. 4.1-jadvalda Hadoop bilan ishlatiladigan eng keng tarqalgan formatlar keltirilgan.
Do'stlaringiz bilan baham: |