Data mining жауаптары! Data mining негізгі ерекшелігі


Сапасыз деректер және олардың түрлері


Download 0.76 Mb.
bet16/30
Sana18.06.2023
Hajmi0.76 Mb.
#1582679
1   ...   12   13   14   15   16   17   18   19   ...   30
Bog'liq
Data mining сұрақтар жауабымен (1)-3

Сапасыз деректер және олардың түрлері

Сапасыз деректер немесе лас деректер практикалық қолдану тұрғысынан жетіспейтін, дәл емес немесе пайдасыз деректер болып табылады. Сапасыз деректер бүгін пайда болған жоқ, олар деректерді енгізу жүйелерімен бір уақытта пайда болды.


Сапасыз деректер әртүрлі себептерге байланысты пайда болуы мүмкін, мысалы, деректерді енгізу кезіндегі қателік, басқа презентация форматтарын немесе өлшем бірліктерін пайдалану, стандарттарға сәйкес келмеу, уақтылы жаңартудың болмауы, деректердің барлық көшірмелерін сәтсіз жаңарту, қайталанатын жазбаларды сәтсіз жою және т. б.
Сапасыз деректердің әртүрлі түрлері сипатталған, олардың ішінде келесі топтар ерекшеленеді:



  1. Деректерді тазарту әдістері

Деректерді тазарту (data cleaning, data cleansing немесе scrubbing) деректердің сапасын жақсарту мақсатында деректердегі қателер мен сәйкессіздіктерді анықтаумен және жоюмен айналысады.
Сапа мәселелері файлдар мен дерекқорлар сияқты жеке деректер жиынында кездеседі. Көптеген деректер көздері интеграцияға ұшыраған кезде, деректерді тазарту қажеттілігі айтарлықтай артады. Бұл дереккөздерде әртүрлі көріністерде жиі шашыраңқы деректер болғандықтан орын алады. Нақты және дәйекті деректерге қол жеткізуді қамтамасыз ету үшін деректердің әртүрлі көріністерін шоғырландыру және қайталанатын ақпаратты алып тастау қажет. Арнайы тазалау құралдары әдетте белгілі бір аймақтармен айналысады.Түрлендірулер ережелер кітапханасы түрінде немесе пайдаланушы интерактивті түрде қамтамасыз етіледі.
Деректерді тазарту (data cleaning, data cleansing немесе scrubbing) деректердің сапасын жақсарту мақсатында деректердегі қателер мен сәйкессіздіктерді анықтаумен және жоюмен айналысады.
Деректерді тазарту әдісі бірқатар критерийлерді қанағаттандыруы керек:

  • Ол жеке деректер көздерінде де, бірнеше көздерді біріктіру кезінде де барлық негізгі қателер мен сәйкессіздіктерді анықтап, жоюы керек.

  • Қолмен тексеру және бағдарламалау көлемін азайту және қосымша көздермен жұмыс істеу тұрғысынан икемді болу үшін әдісті белгілі бір құралдар қолдауы керек.

  • Деректерді тазарту күрделі метадеректер негізінде орындалатын деректерді түрлендіру схемасына байланысты үзіліп жүргізілмеуі тиіс.

  • Деректерді тазартуға және басқа түрлендіруге арналған маппинг функциялары декларативті түрде анықталуы керек .





  1. Download 0.76 Mb.

    Do'stlaringiz bilan baham:
1   ...   12   13   14   15   16   17   18   19   ...   30




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling