Ma'lumotlarga dastlabki ishlov berish


Download 131.94 Kb.
Sana01.11.2023
Hajmi131.94 Kb.
#1736830


Ma'lumotlarga dastlabki ishlov berish.
Ma'lumotlarni qidirish usullarini amaliy qo'llash ko'p bosqichli protsedurani o'z ichiga oladi, uning asosiy bosqichlari keltirilgan. Ma'lumotni qazib olish usullarini qo'llashdan oldin bo'lgan ushbu protseduraning asosiy bosqichlaridan biri bu turli xil o'zgarishlarni o'z ichiga olgan ma'lumotlarni oldindan qayta ishlash bosqichidir. Keling, ularni batafsil ko'rib chiqaylik.
Ma'lumotlarni oldindan qayta ishlash bosqichining asosiy o'zgarishlaridan biri ma'lumotlarni "tozalash" (ingliz. Data Cleaning, Data Cleansing, Data Scrubbing) bo'lib, shikastlangan ma'lumotlar elementlarini aniqlash va tuzatish/o'chirishni o'z ichiga oladi. Bunday zararga ega bo'lgan ma'lumotlar (noto'g'ri, to'liq bo'lmagan, takrorlangan, nomuvofiq, shovqinli) "iflos" deb ataladi. "Nopok" ma'lumotlar manbalari buzilgan ma'lumotlarni yig'ish vositalari, dastlabki ma'lumotlarni kiritishdagi muammolar,
Avtomatik bo'lmagan ma'lumotlarni yaratishda "inson omili", ma'lumotlarni uzatish kanallaridagi muammolar, ma'lumotlarni uzatish texnologiyalarining cheklovlari, bir xil nomenklatura doirasida turli nomlardan foydalanish va boshqalar.
Nopok ma'lumotlarni tozalashning alohida dolzarbligi informatika fanidagi mashhur ibora bilan tasdiqlanadi: "Garbage in - garbage out" (Eng. Garbage In - Garbage Out, GIGO1). Bu shuni anglatadiki, noto'g'ri kiritilgan ma'lumotlar bilan, asosan to'g'ri algoritmning ishlashi natijasida noto'g'ri natijalar olinadi. Darhaqiqat, har qanday turdagi qo'llash natijalari amaliy jihatdan foydalidir

Ma'lumotlarni qidirish usullari faqat to'g'ri ishonchli ma'lumotlardan foydalanilgan taqdirda qo'llaniladi. Bunday ma'lumotlar turli manbalardan berilishi va hajmi jihatidan juda muhim bo'lishi mumkinligini hisobga olsak, "toza" ma'lumotlarni olish va qayta ishlash vazifasi juda qiyin bo'lishi mumkin.


Bundan tashqari, shuni ta'kidlash kerakki, "iflos" ma'lumotlarning mavjudligi ba'zan ularning umuman yo'qligidan ko'ra ko'proq muammoli bo'ladi - bunday ma'lumotlardan foydali bilimlarni olish katta vaqtni talab qilishi mumkin va hech qanday foyda keltirmaydi. Shu bilan birga, bunday ma'lumotlardan ishonchsiz bilimlarni muvaffaqiyatli olish va ulardan keyingi amaliy foydalanish, oqibatlarini oldindan aytib bo'lmaydigan yanada muammoli bo'ladi. Shuning uchun olish bosqichi
Tahlil qilish uchun tayyor bo'lgan "toza" ma'lumotlar katta ahamiyatga ega va vaqt sarfi nuqtai nazaridan bu bosqich eng uzoqlardan biri bo'lishi mumkin [36].
Bugungi kunda "sof" ma'lumotlarni olish muammolari alohida keng qamrovli tadqiqotlar mavzusidir [31]. Ular kontseptual masalalardan tortib ma'lumotlar bazalari va ma'lumotlar omborlaridagi zamonaviy texnologik echimlar tafsilotlarigacha bo'lgan turli xil xususiyatlarni muhokama qiladilar. Bu erda biz eng muhim fikrlarni ta'kidlaymiz.
Ma'lumotni tozalash bilan bog'liq barcha muammolar ikki guruhga bo'linadi, ular turli xil ma'lumotlar manbalarining integratsiyasi (ingliz tilidagi ko'p manbali muammolar) yoki bitta ma'lumot manbasi muammolari (ingliz tilidagi yagona manba muammolari) bilan bog'liq. va h.k. Bundan tashqari, hosil bo'lgan tasniflash daraxtining har bir filiali ma'lumotlarni tozalash bilan bog'liq mumkin bo'lgan muammolarning aniq ro'yxati bilan batafsil tavsiflanadi (11-rasm). Jadvalda. 4 va 5-rasmlarda turli darajalarda - Sxema darajasida va Instant Levelda yaratilgan "iflos" ma'lumotlarning ba'zi misollari ko'rsatilgan.



Рис. 11. Пример классификации проблем качества данных в различных источниках
Т а б л и ц а 4
Примеры «грязных» данных единственного источника на уровне схемы данных


Проблема

«Грязные» данные

Причины

Атрибут


Недопустимые значения

дата рождения = 30.13.70



Значение за
пределами диапазона

Запись


Нарушение
зависимости атрибутов

возраст = 22
дата рождения = 12.02.70

Возраст = (теку-
щая дата – дата рождения)

Тип
записи

Нарушение
уникальности

сотр. 1 = (имя = Иван, SSN = 123)
сотр. 2 = (имя = Петр, SSN = 123)

SNN должен быть
уникальным

Источник


Нарушение ссылочной
целостности

сотр. 1 = (имя = Иван, отд. = 789)



Отдела с номером 789 не существует


Т а б л и ц а 5


Примеры «грязных» данных единственного источника на уровне записей


Причина

«Грязные» данные

Причина

Атрибут




Пропущенное значение

тел. = 9999-999999



Недопустимые (некорректные, null и т.п.) значе- ния при вводе

Орфографические ошибки

город = Тамск город = Москваа

Орфографическая ошибка

Сокращения и аббревиатуры

должность = А, отдел = ЛТО




Объединенные значения

имя = Иван 12.07.70 Томск



Несколько значений в атрибуте

Запись


Нарушение зависимости атрибутов

город = Томск, инд. = 666777



Город и индекс не соответствуют друг другу

Тип записи



Дубликаты записей

сотр. 1 = (имя = Иван, SSN = 123) сотр. 2 = (имя = Иван, SSN = 123)




Противоречащие записи





сотр. 1 = (имя = Иван, SSN = 123) сотр. 1 = (имя = Иван, SSN = 321)

Записи одного и того же сотруд- ника с разным SSN

Источник

Неверные ссылки

сотр. = (имя = Иван, отд. = 789)



Отдел с номером 789 существует, но указан не- верно

Ma'lumotlarni tozalashning quyidagi bosqichlari mavjud:
1. Ma'lumotlarni tahlil qilish. Qaysi turdagi xatolar va nomuvofiqliklarni bartaraf etish kerakligini aniqlash ma'lumotlarni batafsil tahlil qilishni talab qiladi. Ma'lumotlarni yoki alohida ma'lumotlar namunalarini qo'lda tekshirishdan tashqari, metama'lumotlardan ham foydalanish kerak.
2. Transformatsiya ish jarayonining ta'rifi va xaritalash qoidalari. Ushbu bosqichda ma'lumotlar manbalarining soni, ularning heterojenlik darajasi va "ifloslanish" darajasi baholanadi. Ushbu ma'lumotlarga asoslanib, bir nechta ma'lumotlar manbalarini bittaga aylantirish imkonini beruvchi ma'lumotlar oqimi diagrammalari yaratiladi, bu ko'p manbalarni birlashtirish xatolarini (masalan, takroriy yozuvlar paydo bo'lishi) oldini oladi.
3. Tekshirish. Oldingi bosqichning to'g'riligi va samaradorligini baholash (masalan, ma'lumotlarning kichik namunasi bo'yicha). Agar kerak bo'lsa, uni qayta bajarish uchun 2-bosqichga qayting.
4. Transformatsiya. 2 va 3-bosqichlarda aniqlangan va nozik sozlangan transformatsiya qoidalaridan foydalangan holda maʼlumotlarni yagona xotiraga yuklash. Yagona manba darajasidagi maʼlumotlarni tozalash.
5. Tozalangan ma'lumotlarning teskari oqimi. 4-bosqichda bitta omborda tozalangan ma'lumotlar to'plamiga ega bo'lgan holda, asl manbalardagi o'xshash "iflos" ma'lumotlarni ushbu "toza" ma'lumotlar bilan almashtirish tavsiya etiladi. Bu kelajakda ma'lumotlarni tozalashning barcha bosqichlarini takrorlamaslikka imkon beradi.
Ushbu bosqichlar mavjud va maxsus yaratilgan usullar va texnologiyalardan foydalangan holda turli usullar bilan amalga oshirilishi mumkin. Keling, ulardan eng qiziqarlilarini ko'rib chiqaylik.
Ma'lumotlarni tahlil qilish bosqichi metama'lumotlardan foydalanishni tahlil qilishni o'z ichiga oladi, bu odatda mavjud manbalardan olingan ma'lumotlar sifatini baholash uchun etarli emas. Shuning uchun ma'lumotlarning haqiqiy misollarini tahlil qilish, ularning xususiyatlarini va qiymat imzolarini baholash muhimdir. Bu turli manbalardan olingan ma'lumotlar sxemalarida atributlar o'rtasidagi munosabatlarni topish imkonini beradi. Ushbu muammoni hal qilishda ikkita yondashuv mavjud - ma'lumotlarni profillash va ma'lumotlarni qazib olish.
Ma'lumotlarni profillash ularning o'ziga xos xususiyatlari bilan tavsiflangan individual atributlarni tahlil qilishga qaratilgan: ma'lumotlar turi, uzunligi, qiymatlar diapazoni, diskret qiymatlarning paydo bo'lish chastotasi, dispersiya, o'ziga xoslik, "null" qiymatlarning paydo bo'lishi, odatiy yozuv imzosi (masalan, telefon uchun

raqamlar). Aynan shunday xususiyatlar to'plami (profil) ma'lumotlar sifatining turli jihatlarini baholash imkonini beradi.


Ma'lumotlarni olish etarlicha katta ma'lumotlar to'plamining bir nechta atributlari o'rtasidagi munosabatlarni topishni o'z ichiga oladi. Ushbu usul ma'lumotlarni qazib olish deb ataladigan bo'lsa, bu erda yuqorida qayd etilgan assotsiatsiyalar va ketma-ketliklarni klasterlash, umumlashtirish, qidirish usullari qo'llaniladi (1-jadvalga qarang). Bundan tashqari, etishmayotgan qiymatlarni to'ldirish, noto'g'ri qiymatlarni tuzatish yoki dublikatlarni aniqlash uchun relyatsion ma'lumotlar bazalarida qabul qilingan, qo'shimcha ravishda atributlar o'rtasidagi biznes aloqalariga qo'yiladigan mavjud yaxlitlik cheklovlaridan foydalanish mumkin. Masalan, "Jami = Miqdor × Birlik_narx" ekanligi ma'lum. Ushbu shartga javob bermaydigan barcha yozuvlarni diqqat bilan o'rganish, tuzatish yoki ko'rib chiqishdan chiqarib tashlash kerak.
Bitta manbada ma'lumotlarni tozalash muammolarini hal qilish uchun (bir manbali muammolar), shu jumladan uni boshqa ma'lumotlar manbalari bilan integratsiya qilishdan oldin, quyidagi bosqichlar amalga oshiriladi:
- Erkin shakldagi atributlardan qiymatlarni chiqarish (atributlarni ajratish) Bunday holda, biz bir qator so'zlarni (masalan, manzil yoki shaxsning to'liq ismi) saqlaydigan satr qiymatlari haqida gapirishimiz mumkin. Bunday holda, atributning bizni qiziqtirgan qismi uchun ushbu qiymatning o'rnini aniq tushunish talab qilinadi. Hatto bunday atributning tarkibiy qismlarini saralash kerak bo'lishi mumkin.
- tasdiqlash va tuzatish. Bu qadam ma'lumotlarni kiritish xatolarini topish va ularni eng avtomatik tarzda tuzatishni o'z ichiga oladi, masalan, imlo xatolari va matn terish xatolarining oldini olish uchun avtomatik imlo tekshiruvidan foydalanish. Kiritilgan manzillar qiymatini tuzatish uchun joy nomlari va pochta indekslarining lug'ati ham qo'llanilishi kerak. Atributlarning bog'liqligi (tug'ilgan sana - yosh; Jami = Miqdor × Birlik_narx va boshqalar) ham ma'lumotlarda ko'plab xatolardan qochishga yordam beradi.

- Standartlashtirish. Ushbu bosqich barcha ma'lumotlarni yagona universal formatga keltirishni o'z ichiga oladi. Bunday formatlarga misol qilib sana va vaqtni yozish formati, satr qiymatlarini yozishda ish hajmini keltirish mumkin. Matn maydonlarida prefikslar va qo'shimchalar, ulardagi qisqartmalar birlashtirilgan bo'lishi kerak, turli xil kodlashlar bilan bog'liq muammolar chiqarib tashlanishi kerak.


Ma'lumotlarning turli manbalarini (ko'p manbali muammolar) birlashtirish natijasida yuzaga keladigan asosiy muammolardan biri bu yozuvlarning takrorlanishini bartaraf etishdir. Ushbu bosqich ko'pgina o'zgarishlar va tozalashlardan so'ng amalga oshiriladi. Bu birinchi navbatda qaysidir ma'noda o'xshash yozuvlarni aniqlashni va keyin ularni atributlar birligi bilan birlashtirishni o'z ichiga oladi. Shubhasiz, birlamchi kalitning takroriy yozuvlari mavjud bo'lganda ushbu muammoni hal qilish juda oddiy. Agar bunday noyob identifikatsiya qiluvchi xususiyat bo'lmasa, unda dublikatlarni yo'q qilish vazifasi ancha murakkablashadi, bu esa yozuvlarni o'zaro solishtirish (ma'lum ma'noda yaqinlik) uchun noaniq yondashuvlardan foydalanishni talab qiladi.



Download 131.94 Kb.

Do'stlaringiz bilan baham:




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling