Fan: Katta hajmdagi ma’lumotlarni boshqarish (Big Data) Mavzu


Download 26.08 Kb.
bet1/3
Sana24.12.2022
Hajmi26.08 Kb.
#1061279
  1   2   3
Bog'liq
Xurramova M.4


MUSTAQIL ISH





Fan:  Katta hajmdagi ma’lumotlarni boshqarish (Big Data)
Mavzu: Tushurib qoldirilgan ma’lumotlarni qayta ishlash. Ma’lumotlarni tozalash bosqichlari. Ma’lumotlardan bevosita foydalanish yoki ma’lumotlarni saqlash. Shakllangan qonuniyatlarni yoki shablonlarni distilyatsiyasini aniqlash. Tasniflash masalasi va jarayonlari. Sun’iy intellekt. Tasniflash va bashoratlash usullari. Tayanch vektorlar usuli. “Yaqin qo‘shnilar” usuli.
Bajardi: KI 13-18 (s) guruh
talabasi Xurramova Mahbuba
Tekshirdi: TO‘RAYEV M. F.


Tushirib qoldirilgan qiymatlar (Missing Values).
Ma’lumotlarning ayrim qiymatlari quyidagilarga bog‘liq holda tushirib qoldirilishi mumkin:

 ma’lumotlar umuman to‘planmagan bo‘lsa (masalan, yoshni so‘roq qilishda);


 ayrim atributlar ayrim ob’ektlar uchun qo‘llanilmasligi mumkin bo‘lsa (masalan, “yillik daromad” atributi qo`llaniladi).
Tushirib qoldirilgan ma’lumotlarni qayta ishlash.
1. Tahlilda tushirib qoldirilgan qiymatlarga ega ob’ektlarni chiqarish.
2. Tushirib qoldirilgan ma’lumotlar uchun yangi qiymatlarni hisoblash.
3. Tahlillash jarayonida yo‘qotilgan qiymatlarni e’tiborsiz qoldirish.
4. Tushirib qoldirilgan qiymatlarni mumkin bo‘lgan qiymatlar bilan almashtirish.


Ma’lumotlarni tozalash (Data Cleaning, data cleaning yoki scrubbing) ma’lumotlarni sifatini yaxshilash maqsadida ma’lumotlardagi xatolar va nomuvofiqliklarni aniqlash va olib tashlash uchun ishlatiladi.
Tozalash uchun maxsus vositalar odatda muayyan sohalarga asosan ismlari va manzillariga ega, yoki ularning nusxalari bundan mustasno. O‘zgarishlar qoidalar kutubxonasi shaklida yoki foydalanuvchi tomonidan interaktiv rejimda taqdim etiladi. Ma’lumotlarning o‘zgarishi sxemaning moslash vositalaridan foydalangan holda avtomatik ravishda olinishi mumkin.
Ma’lumotlarni tozalash usuli bir qator mezonlar vazifalarini bajarishi mumkin.
1. Usul barcha xatolarni va nomuvofiqliklarni alohida ma’lumot manbalari sifatida ham va bir nechta manbalarni birlashtirish sifatida ham aniqlashi va olib tashlashi kerak.
2. Usul qo‘lda tekshirish va dasturlash hajmini kamaytirish uchun belgilangan instrumentlar bilan qo‘llab-quvvatlashi zarur va qo‘shimcha manbalar bilan ishlashda moslashuvchan bo‘lishi lozim.
3. Ma’lumotlarni tozalash murakkab metama’lumotlar asosida bajariluvchi ma’lumotlarni o‘zgartirish sxemasi bilan bog‘liq ma’lumotlardan ajratilgan holda amalga oshirilmasligi zarur.
4. Tozalash va boshqa ma’lumotlarni o‘zgartirish uchun xaritalash funksiyasi deklarativ ravishda belgilanishi va boshqa ma’lumot manbalarida va so‘rovlarni qayta ishlashda foydalanish uchun mos bo‘lishi kerak
5. Texnologik jarayon infratuzilmasi ma’lumotlar ombori uchun ayniqsa faol ravishda qo‘llab-quvvatlanishi kerak, bu esa manbalar to‘plami va katta hajmdagi ma’lumotlar to‘plami uchun barcha o‘zgartirish bosqichlarini samarali va ishonchli amalga oshirishni ta’minlaydi.



Download 26.08 Kb.

Do'stlaringiz bilan baham:
  1   2   3




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling