Katta hajmdagi ma`lumotlar va asosiy ma`lumotlar Hamma joyda katta hajmdagi ma`lumotlar - Katta hajmdagi ma'lumotlar har doim yig`iladi va saqlanadi.
- Web ma`lumotlarda
- Elektron tijoratda
- Savdo markazlarida
- Bank va pul o`tkazmalarida
- Ijtimoiy tarmoqlarida
- Va boshqa joylarda
Qancha ma`lumot? - Google kuniga 30 PB ma`lumotdan foydalanadi.
- Amazon 3 PB, kuniga 5 TB ma`lumotda foydalanadi
- Facebook foydalanuvchilari 2.5 PB, kuniga 15 TB ma`lumotdan foydalanadi.
- eBay 6.5 PB ma`lumot, ya`ni kuniga 50 TBdan ko`p ma`lumot bilan ishlaydi
- Ijtimoiy tarmoqlar kuniga o`rtacha 24 TB ma`lumotlar bilan ishlaydi.
Bu ma`lumotlar hammaga yetarli bo`lishi kerak
Maximilien Brice, © CERN
The Earthscope - Earthscope dunyodagi eng yirik ilmiy loyihadir.
- Shimoliy Amerikaning geologik evolyutsiyasini kuzatish uchun mo'ljallangan ushbu rasadxona 3,8 million kvadrat kilometrdan oshiq ma'lumotni qayd etib, 67 terabayt ma'lumot yig`adi (kuniga).
(http://www.msnbc.msn.com/id/44363598/ns/technology_and_science-future_of_technology/#.TmetOdQ--uI)
1.
Ma`lumot turlari - Relyatsion ma`lumotlar (Jadvallar/Tranzaksiya/Eski ma`lumotlar(arxiv))
- Matnli ma`lumotlar (Web)
- Yarim tuzilgan ma`lumotlar(XML)
- Grafik ma`lumotlar
- Ijtimoiy tarmoq, Semantik Web, …
- Oqim ma`lumotlari
- Siz bunday ma'lumotlarni faqat bir marta ko`shingiz mumkin.
Katta hajmdagi ma`lumotlar bilan nima qilish mumkin? - Umumlashtirish va statistika
- Indekslash, qidiruv va so`rov
- Kalit so`zga asoslangan qidiruv
- Na`muna bo`yicha qidiruv (XML/RDF)
- Bilimga ega bo`lish va kashf etish
- Ma`lumotlarni qidirish
- Statistik modellashtirish
OLAP va ma`lumotlarni qidirish Ma`lumotlar ombori arxitekturasi
mijoz
mijoz
Ma`lumotlar ombori
Manba
Manba
Manba
So`rov va tahlil
Integratsiya
Meta ma`lumot
Yulduz sxemalari - Yulduz sxemasi ma`lumotlar ombori uchun umumiy parametrdir. U quyidagilardan tashkil topgan:
- Faktlar jadvali : Sotuvlar tahlili kabi juda katta ma`lumotlar to`plami.
- O`lchov jadvallari: faktlarga jalb qilingan sub'ektlar haqida kichikroq, odatda statik ma'lumotlar.
Shartlar - Faktlar jadvali
- O'lchov jadvallari
- O'lchovlar
Yulduz sxemasi Qayta ishlash
Faktlar jadvalining ko`rinishi:
Tahlil (tahlil) jadvali
2 o`lchovli
3-D qayta ishlash
day 2
day 1
3 o`lchovli
Tahlil (tahlil) jadvali
Faktlar jadvalining ko`rinishi:
RAXMAT!!!!! - ROLAP: Relational On-Line Analytical Processing (Relyatsion onlayn analitik ishlov berish)
- MOLAP: Multi-Dimensional On-Line Analytical Processing (Ko'p o'lchovli onlayn analitik ishlov berish)
Agregatlar - kunlik miqdorlarni qo`shish (birinchi kun)
- SQLda:
SELECT sum(amt) FROM SALE
WHERE date = 1
81
Agregatlar - Kunlik miqdorlar
- SQLda:
SELECT date, sum(amt) FROM SALE
GROUP BY date
Boshqa bir misol - Kunlik va mahsulot bo`yicha miqdorlar
- SQLda:
SELECT date, sum(amt) FROM SALE
GROUP BY date, prodId
Agregatlar - Operatorlar: sum, count, max, min, avg
- Shart operatori: “Having”
- O`lchovlardan foydalanib monitoring
- Hududlar bo`yicha o`rtacha (do`konda)
- Oylar bo`yicha maksimum (kunlarda)
Ma'lumotlarni qidirish nima? - Ma'lumotdagi foydali, ehtimoli kutilganlarini topish
- Ma'lumotlardan noaniq, ilgari noma'lum va potentsial foydali ma'lumotlarni olish
- Avtomatik yoki yarim avtomatik vositalar yordamida katta hajmdagi ma'lumotlarni mazmunlilarini aniqlash uchun tadqiq qilish va tahlil qilish
- Tasniflash [Bashoratli]
- Klasterlash [sinflash]
- Uyushma qoidalarini ishlatish[Ta'rif]
- Shablon namunasini ketma-ket ishlatish [tavsifiy]
- Regrressiya (so`rovlarni bir-biriga bog`liqligi) [bashoratli]
- Chetliklarni aniqlash [bashoratli]
- Birgalikdagi filtr [bashoratli]
Ta`rif - Yozuvlar top`lami berilgan
- Har bir yozuv atributdir, bitta atribut esa sinf.
- Boshqa atributning qiymatlari funksiyasi modeldir.
- Maqsad: ilgari ko'rilmagan yozuvlar imkon qadar aniq sinfga aylanishi kerak.
- Modelning aniqligini aniqlash uchun sinov to'plami ishlatiladi. Odatda, berilgan ma'lumotlar to'plami test va test to'plamlariga bo'linadi, bunda uni tuzishda foydalanilgan o'quv to'plami va uni tekshirish uchun foydalaniladi.
Qarorlar daraxti
Masalan:
Mijozlar yangi rusumli avtomobilga qiziqishlarini bilish uchun so'rov o'tkazish.
Reklama kampaniyasi uchun mijozlarni tanlash
O`rganishlar
Klasterlash
Yosh
Daromad
Ta`lim
Boshqa qidirish turlari - Matnli qidirish: matnli hujjatlarga ma'lumotlar qidirishni qo'llash
- tegishli sahifalarni topish uchun klaster veb-sahifalari
- foydalanuvchi tashriflar tarixini tartibga solish uchun tashrif buyurgan klaster sahifalari
- veb-sahifalarni avtomatik ravishda veb-katalogga saqlash
- Grafik qidirish:
- Grafik ma`lumotlar bilan ishlash
- Ma`lumotlar oqimi nima?
- Domiy oqimlar
- Katta, tez va o`zgaruvchan
- Nega ma`lumotlar oqimi?
- Oqimlarning tezligi va juda katta miqdordagi ma'lumotlarni saqlash.
- “real-vaqt” rejimida ishlash
- Ma`lumotlar oqimini qidirish
Do'stlaringiz bilan baham: |