Katta hajmdagi ma`lumotlar va asosiy ma`lumotlar Hamma joyda katta hajmdagi ma`lumotlar


Download 1.7 Mb.
Sana03.12.2020
Hajmi1.7 Mb.
#157706
Bog'liq
1 - mavzu

Katta hajmdagi ma`lumotlar va asosiy ma`lumotlar

Hamma joyda katta hajmdagi ma`lumotlar

  • Katta hajmdagi ma'lumotlar har doim yig`iladi va saqlanadi.
    • Web ma`lumotlarda
    • Elektron tijoratda
    • Savdo markazlarida
    • Bank va pul o`tkazmalarida
    • Ijtimoiy tarmoqlarida
    • Va boshqa joylarda

Qancha ma`lumot?

  • Google kuniga 30 PB ma`lumotdan foydalanadi.
  • Amazon 3 PB, kuniga 5 TB ma`lumotda foydalanadi
  • Facebook foydalanuvchilari 2.5 PB, kuniga 15 TB ma`lumotdan foydalanadi.
  • eBay 6.5 PB ma`lumot, ya`ni kuniga 50 TBdan ko`p ma`lumot bilan ishlaydi
  • Ijtimoiy tarmoqlar kuniga o`rtacha 24 TB ma`lumotlar bilan ishlaydi.

Bu ma`lumotlar hammaga yetarli bo`lishi kerak

Maximilien Brice, © CERN


The Earthscope

  • Earthscope dunyodagi eng yirik ilmiy loyihadir.
  • Shimoliy Amerikaning geologik evolyutsiyasini kuzatish uchun mo'ljallangan ushbu rasadxona 3,8 million kvadrat kilometrdan oshiq ma'lumotni qayd etib, 67 terabayt ma'lumot yig`adi (kuniga).
  • (http://www.msnbc.msn.com/id/44363598/ns/technology_and_science-future_of_technology/#.TmetOdQ--uI)


1.


Ma`lumot turlari

  • Relyatsion ma`lumotlar (Jadvallar/Tranzaksiya/Eski ma`lumotlar(arxiv))
  • Matnli ma`lumotlar (Web)
  • Yarim tuzilgan ma`lumotlar(XML)
  • Grafik ma`lumotlar
    • Ijtimoiy tarmoq, Semantik Web, …
  • Oqim ma`lumotlari
    • Siz bunday ma'lumotlarni faqat bir marta ko`shingiz mumkin.

Katta hajmdagi ma`lumotlar bilan nima qilish mumkin?

  • Umumlashtirish va statistika
  • Indekslash, qidiruv va so`rov
    • Kalit so`zga asoslangan qidiruv
    • Na`muna bo`yicha qidiruv (XML/RDF)
  • Bilimga ega bo`lish va kashf etish
    • Ma`lumotlarni qidirish
    • Statistik modellashtirish

OLAP va ma`lumotlarni qidirish

Ma`lumotlar ombori arxitekturasi


mijoz

mijoz


Ma`lumotlar ombori

Manba


Manba

Manba


So`rov va tahlil

Integratsiya

Meta ma`lumot

Yulduz sxemalari

  • Yulduz sxemasi ma`lumotlar ombori uchun umumiy parametrdir. U quyidagilardan tashkil topgan:
    • Faktlar jadvali : Sotuvlar tahlili kabi juda katta ma`lumotlar to`plami.
      • Ko`pincha “faqat kirish”
    • O`lchov jadvallari: faktlarga jalb qilingan sub'ektlar haqida kichikroq, odatda statik ma'lumotlar.

Shartlar

  • Faktlar jadvali
  • O'lchov jadvallari
  • O'lchovlar

Yulduz sxemasi

Qayta ishlash


Faktlar jadvalining ko`rinishi:

Tahlil (tahlil) jadvali

2 o`lchovli

3-D qayta ishlash


day 2

day 1

3 o`lchovli

Tahlil (tahlil) jadvali

Faktlar jadvalining ko`rinishi:


RAXMAT!!!!!

ROLAP va MOLAP

  • ROLAP: Relational On-Line Analytical Processing (Relyatsion onlayn analitik ishlov berish)
  • MOLAP: Multi-Dimensional On-Line Analytical Processing (Ko'p o'lchovli onlayn analitik ishlov berish)

Agregatlar

  • kunlik miqdorlarni qo`shish (birinchi kun)
  • SQLda:

  • SELECT sum(amt) FROM SALE

    WHERE date = 1



81

Agregatlar

  • Kunlik miqdorlar
  • SQLda:

  • SELECT date, sum(amt) FROM SALE

    GROUP BY date


Boshqa bir misol

  • Kunlik va mahsulot bo`yicha miqdorlar
  • SQLda:

  • SELECT date, sum(amt) FROM SALE

    GROUP BY date, prodId


Agregatlar

  • Operatorlar: sum, count, max, min, avg
  • Shart operatori: “Having”
  • O`lchovlardan foydalanib monitoring
    • Hududlar bo`yicha o`rtacha (do`konda)
    • Oylar bo`yicha maksimum (kunlarda)

Ma'lumotlarni qidirish nima?

  • Ma'lumotdagi foydali, ehtimoli kutilganlarini topish
  • Ma'lumotlardan noaniq, ilgari noma'lum va potentsial foydali ma'lumotlarni olish
  • Avtomatik yoki yarim avtomatik vositalar yordamida katta hajmdagi ma'lumotlarni mazmunlilarini aniqlash uchun tadqiq qilish va tahlil qilish

Ma'lumotlarni qidirish vazifalari

  • Tasniflash [Bashoratli]
  • Klasterlash [sinflash]
  • Uyushma qoidalarini ishlatish[Ta'rif]
  • Shablon namunasini ketma-ket ishlatish [tavsifiy]
  • Regrressiya (so`rovlarni bir-biriga bog`liqligi) [bashoratli]
  • Chetliklarni aniqlash [bashoratli]
  • Birgalikdagi filtr [bashoratli]

Ta`rif

  • Yozuvlar top`lami berilgan
    • Har bir yozuv atributdir, bitta atribut esa sinf.
  • Boshqa atributning qiymatlari funksiyasi modeldir.
  • Maqsad: ilgari ko'rilmagan yozuvlar imkon qadar aniq sinfga aylanishi kerak.
    • Modelning aniqligini aniqlash uchun sinov to'plami ishlatiladi. Odatda, berilgan ma'lumotlar to'plami test va test to'plamlariga bo'linadi, bunda uni tuzishda foydalanilgan o'quv to'plami va uni tekshirish uchun foydalaniladi.

Qarorlar daraxti


Masalan:

  Mijozlar yangi rusumli avtomobilga qiziqishlarini bilish uchun so'rov o'tkazish.

  Reklama kampaniyasi uchun mijozlarni tanlash

O`rganishlar


Klasterlash


Yosh

Daromad


Ta`lim

Boshqa qidirish turlari

  • Matnli qidirish: matnli hujjatlarga ma'lumotlar qidirishni qo'llash
    • tegishli sahifalarni topish uchun klaster veb-sahifalari
    • foydalanuvchi tashriflar tarixini tartibga solish uchun tashrif buyurgan klaster sahifalari
    • veb-sahifalarni avtomatik ravishda veb-katalogga saqlash
  • Grafik qidirish:
    • Grafik ma`lumotlar bilan ishlash

Ma`lumotlar oqimlari

  • Ma`lumotlar oqimi nima?
    • Domiy oqimlar
    • Katta, tez va o`zgaruvchan
  • Nega ma`lumotlar oqimi?
    • Oqimlarning tezligi va juda katta miqdordagi ma'lumotlarni saqlash.
    • “real-vaqt” rejimida ishlash
  • Ma`lumotlar oqimini qidirish

Download 1.7 Mb.

Do'stlaringiz bilan baham:




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling