Fan: Katta hajmdagi ma’lumotlarni boshqarish (Big Data) Mavzu


Ma’lumotlarni tozalash bosqichlari


Download 26.08 Kb.
bet2/3
Sana24.12.2022
Hajmi26.08 Kb.
#1061279
1   2   3
Bog'liq
Xurramova M.4

Ma’lumotlarni tozalash bosqichlari
Umuman olganda, ma’lumotlarni tozalash quyidagi bosqichlarni o‘z ichiga oladi.
1- bosqich. Ma’lumotlarni tahlil qilish.
O`chirilishi kerak bo‘lgan xatolar va nomuvofiqliklar turlarini aniqlash uchun ma’lumotlarni batafsil tahlil qilish zarur. Bu yerda ma’lumotlar xossalari va sifat muammolarini aniqlash to‘g‘risidagi metama’lumotlarni olish uchun ma’lumotlarni va ularning shablonlarini qo‘lda tekshirishdan ham, maxsus dasturlardan ham foydalanish mumkin.
2-bosqich. Ma’lumotlar tartibini aniqlash va o‘zgartirish qoidalari.
Ma’lumotlar manbalari soniga, birjinsli emasligi va ifloslik darajasiga qarab, ma’lumotlar etarlicha katta o‘zgartirishni va tozalashni talab qiladi. Ba’zida ma’lumotlarni umumiy modelini manbalarini ko‘rsatish uchun o`girish sxemasidan foydalaniladi; odatda ma’lumotlar ombori uchun relyasion ko‘rinishdan foydalanadilar. Tozalashning birinchi bosqichlari ma’lumotlarning alohida manbalari muammolari tavsiflarini aniqlashi yoki o‘zgartirishi mumkin. Keyingi qadamlar sxemani ma’lumotlar integratsiyasiga va ko‘p elementlar, masalan dublikatlar muammolarini bartaraf etishga qaratilgan bo‘lishi kerak. Saqlash uchun aniqlanishi bo'yicha amalga oshirish ETL (Extract,Transform, Load) ni aniqlash jarayonida o‘zgartirish va tozalashga tegishli nazorat qilish usullarini ma’lumotlar oqimini aniqlash zarur bo‘ladi.
O‘chirish bilan bog‘liq ma’lumotlarning o‘zgarishi, shuningdek tozalash bosqichlari imkon qadar deklarativ so‘rov va xaritalash tili yordamida aniqlanishi kerak va shu bilan o‘zgartirishning avtomatik generatsiya kodini ta’minlaydi. Bundan tashqari o‘zgartirish jarayonida foydalanuvchi tomonidan yozilgan tozalash kodi va maxsus vositalarni ishga tushirish kerak.
O‘zgartirish bosqichlari foydalanuvchi bilan tozalash mantig‘iga ega bo‘lmagan ma’lumotlar elementlari bo‘yicha teskari bog‘lanishni talab qilishi mumkin.
3-bosqich. Tasdiq
Ushbu bosqichda jarayonning to‘g‘riligi va samaradorligi hamda o‘zgartirishning ta’riflari aniqlanadi. Buni testlashtirish va baholash yo‘li bilan amalga oshiriladi, masalan, berilgan manba misolida yoki nusxasida, - ushbu ta’riflarni qandaydir yaxshilash zarur yoki yo‘qligini oydinlashtirish maqsadida. Loyihalashtirish va tasdiqlashni tahlil qilishda faqat ma’lum o‘zgarishlar amalga oshirilgandan keyingina ayrim xatolar sezilarli bo‘lib qolishiga bog‘liq iteratsiyalar to‘plami talab qilinishi mumkin.

Download 26.08 Kb.

Do'stlaringiz bilan baham:
1   2   3




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling