1-qadam: Savollar berish


Download 192.66 Kb.
bet1/2
Sana26.11.2020
Hajmi192.66 Kb.
#153401
  1   2
Bog'liq
uzbek koders ma'lumotlar tahlili jarayonlari


Ma’lumotlar tahlili jarayonini 5 ta qadamga bo‘lib chiqdik: Savol berish, boshqarish, isloh qilish, xulosa qilish va xabardor qilish. Quyida asosiy tushunchalarning qisqacha mazmuni keltirilgan.

1-qadam: Savollar berish

Sizga ma’lumotlar taqdim etiladi va ular asosida savollar berasiz yoki birinchi savollar berasiz va ular asosida keyinchalik ma’lumotlar yig‘asiz. Har ikki holatda ham, to‘g‘ri berilgan savollar yig‘iladigan ma’lumotlarning ahamiyatga ega qismlariga e’tibor berishga yordam beradi va tahlillaringiz sizni to‘g‘ri xulosalarga kelishingizga yo‘llaydi.



2-qadam: Ma’lumotlarni boshqarish

Sizga kerak ma’lumotlarni o‘zingiz ishlay oladigan 3 ta qadamdan iborat ko‘rinishda olasiz: ularni to‘plash, foydalanish, tozalash. Savollaringizga javob berish uchun kerakli ma’lumotlarni to‘playsiz, ma’lumotlaringizning sifatida va tarkibida muammolarni aniqlash uchun, siz qo‘lingizdagi ma’lumotlardan foydalanasiz va ularni o‘zgartirish, almashtirish yoki o‘chirish orqali tozalaysiz. Bu jarayon ma’lumotlar to‘plamini yuqori sifat darajasida va yaxshi tarkibda ekanligini ta’minlaydi.



3-qadam: Tadqiqiy ma’lumotlar tahlilini amalga oshirish

Ma’lumotlaringizni tadqiq qilasiz, so‘ngra tahlillaringiz, vizualizatsiyalaringiz va modellaringizning sifatini ko‘tarish uchun ularni ko‘paytirasiz. Isloh qilish jarayoni ma’lumotlaringizdan o‘xshash va takrorlanadigan bo‘laklar topish, ma’lumotlar o‘rtasidagi aloqadorliklarni vizualizatsiya qilish va qanday ma’lumotlar bilan ishlayotganingiz to‘g‘risida tajriba to‘plashdan iborat bo‘ladi. Ma’lumotlarni isloh qilish jarayonidan so‘ng, qo‘l ostingizdagi ma’lumotlardan yaxshiroq funksiya yaratish, keraksiz bo‘laklarni olib tashlash kabi amallarni bajarishingiz mumkin. Bu kabi jarayon funksiya injiniringi deb nomlanadi.



4-qadam: Xulosalar qilish (yoki, hattoki, bashorat qilish)

Ushbu qadamga odatda sun’iy idrok yoki inferensial (xulosaviy) statistika bilan yondashiladi.



Step 5: 5-qadam: Natijalaringizni tushuntiring va ulashing

Ma’lumotlar tahlillaridan topgan bilim va ko‘nikmalaringiz ma’nosini boshqalarga yetkazib berishingiz va ularni to‘g‘riligini isbotlashingiz kerak. Yoki sizning yakuniy maqsadingiz biron bir tizim ishlab chiqishdan iborat bo‘lsa, nimaiki yaratgan bo‘lsangiz uni odatda tanishtirishingiz va ulashishingiz, yaratilishdagi qilingan maqsadli qarorlaringizni tushuntirishingiz va uni qanday ishlashiga doir hisobot berishingiz kerak. Olgan natijalaringizni tushuntirishni ko‘pgina yo‘llari mavjud: hisobotlar, slaydlar, blog xabarlari, elektron pochtalar, taqdimotlar va, hattoki, suhbatlar. Ma’lumotlarni vizualizatsiya qilish doimo ahamiyat kasb etib keladi.


Turkumlashgan tartibli vs. Turkumlashgan nominal


Biz turkumlashgan ma’lumotlarni quyida ikki turga bo‘lamiz: Tartibli va Nominal.

Turkumlashgan tartibli ma’lumotlar tartibli joylashadi (masalan, kuchuklar bilan muloqot ko‘rsatgichini 'juda yomon' dan 'juda yaxshi' tomon joylashuvi).

Turkumlashgan nominal ma’lumotlar hech qanday tartib yoki joylashuvga ega emas (masalan, kuchuk turlari kabi).

Uzluksiz vs. diskret


Biz miqdoriy ma’lumotlarni uzluksiz yoki diskret turlarga ajratishimiz mumkin.

Uzluksiz ma’lumotlar kichik va doim qiymatga ega bo‘ladigan juda ham kichik qismlarga ajratilishi mumkin. Masalan, kuchukning yoshi, biz uni yil, oy, kun, soat, soniyalar kabi yosh ko‘rsatgichlariga ajratishimiz mumkin, ammo bunda undan-da kichik qiymatlar mavjud.

diskret ma’lumotlar faqat sanaladigan qiymatlarni qabul qiladi. Kuchuklarning sanog‘ini biz diskret ma’lumot turi sifatida olishimiz mumkin.

Miqdoriy ma’lumotlar tahlili

Miqdoriy ma’lumotlarning to‘rt yo‘nalishi


Miqdoriy ma’lumotlarning to‘rt yo‘nalishi mavjud.

  1. 'Markaz' o‘lchovi

  2. 'Kenglik' o‘lchovi

  3. Ma’lumot 'Shakli'

  4. 'Begonalar'

Turkumlashgan ma’lumotlar tahlili


Mazkur videolavhada muhokama qilinmaganidek, turkumlashgan ma’lumotlar tahlilida ularning kam qismlari inobatga olinadi. Turkumlashgan ma’lumotlar tahlili odatda ma’lum guruhga tegishli bo‘lgan individlar sanoqlari yoki proporsiyalari ko‘rinishida bo‘ladi. Masalan, kuchuklar zotlariga qarasak, har bir zotda nechta kuchuk borligini yoki har bir zot turida ularning qanday miqdorda ekaniga e’tibor berishimiz mumkin.

Markaz o‘lchovi


Markazni o‘lchashning uch turi mavjud:

  1. 'O‘rta qiymat'

  2. 'Mediana'

  3. 'Uslub'

O‘rta qiymat


Ushbu videolavhada asosni hisoblashga e’tibor qaratamiz. O‘rta qiymat matematikada ko‘pincha o‘rta yoki kutilgan qiymat nomi bilan ataladi. Biz asosni bizdagi barcha qiymatlarni qo‘shish va qiymatlar soniga bo‘lish orqali hisoblaymiz. Mediana va moda asosiy o‘lchovlari kelgusi test va videolavhalarda chuqurroq muhokama qilinadi.

Mediana


Mediana ma’lumotlarning 50% ni past hamda 50% ni yuqori qiymatlarga taqsimlaydi. Ushbu videolavhada medianani kuzatilayotgan ma’lumotlarning toq yoki juft soniga qarab qanday hisoblashni aniqladik.

Toq qiymatlar uchun mediana


Agar bizda kuzatilayotgan qiymatlar soni toq bo‘lsa, aniq markaz dagi sonni oson topa olamiz. Masalan, bizda 7 ta qiymat bo‘lsa, hamda ular kichikdan katta tomon joylashtirilsa, mediana to‘rtinchi o‘zgaruvchi bo‘ladi. Agar ular soni 9 ta bo‘lsa, mediana beshinchi qiymatdagisi bo‘ladi.

Juft qiymatlar uchun mediana


Agar bizda kuzatilayotgan qiymatlar soni juft bo‘lsa, mediana markazdagi ikki son o‘rtachasiga teng bo‘ladi. Masalan, bizda 8 qiymat bo‘lsa, hamda ular kichikdan katta tomon joylashtirilsa mediana to‘rtinchi va beshinchi qiymatlar o‘rtachasi bo‘ladi.

Medianani hisoblashda biz avval qiymatlarni saralashimiz zarur.

O‘rta qiymat va medianada katta ehtimollik bilan shakl ga bog‘liq holda va begonalar bor bo‘lgan taqdirda ma’lumotlar to‘plamini tasvirlashda foydalanamiz. Keyinchalik bu haqida so‘z yuritamiz!

Moda


Moda ma’lumotlar to‘plamidagi eng ko‘p takrorlangan qiymat hisoblanadi.

Bir ma’lumotlar to‘plamida bir necha uslubdagi takrorlanishlar yoki hech qanday takrorlanishlar bo‘lmasligi mumkin.


Modasizlik


Agar ma’lumotlar to‘plamidagi barcha qiymatlar bir xil chastotada kelsa, bunga modasizlik deyiladi. Masalan:

1, 1, 2, 2, 3, 3, 4, 4

Bu yerda moda mavjud emas, negaki barcha sonlar bir xil takrorlanmoqda.

Ko‘pmodalik


Agar ikki yoki undan ortiq sonlar maksimum qiymatda kelsa, demak bu ko‘p takrorlanuvchi ko‘pmodalik deyiladi. Masalan:

1, 2, 3, 3, 3, 4, 5, 6, 6, 6, 7, 8, 9

Bu yerda ikki moda 3 va 6 sonlarining maksimum qiymatda 3 marta takrorlanishini kuzatishimiz mumkin. Ammo qolganlari birta uchraydi xolos.

Notation


"Notatsiya" matematik g‘oyalar kommunikatsiyasi uchun ishlatiladigan keng tarqalgan til. "Notatsiya"ni akademik va sanoat mutaxassislari tomonidan matematik g‘oyalarni tarqatish uchun ishlatiladigan universal til sifatida olishimiz mumkin. Keyingi videolavhalarda ba’zi narsalar mushkul bo‘lib tuyilishi mumkin. Tushunchalarni yaxshiroq tushunib olish uchun testlardan foydalaning.

Siz allaqachon bir qancha "notatsiya"larni bilasiz. Qo‘shuv, ayiruv, ko‘paytirish, bo‘lish va tenglik belgilari, bularning barchasi siz bilgan matematik belgilar hisoblanadi. Ushbu belgilarning barchasi bir sonning boshqa son bilan aloqasini amalga oshirishni bildiradi. Quyida siz "notatsiya"ga tegishli qo‘shimcha ma’lumotlarga ega bo‘lasiz. Xullas, loyihani yakunlash uchun "notatsiya"dan foydalanishingiz zarur emas, uning quyidagi jihatlari mavjud:



  1. Sizga eng mukammal ko‘ringan "notatsiya"ni to‘g‘ri ishlatishni o‘rganish. Yangi tilni o‘rganganday "notatsiya"da qanday yozishni va o‘qishni o‘rganish. Bu til matematikaga tegishli bo‘lgan g‘oyalarni tarqatishga mo‘ljallangan.



  2. U sizga hujjatlarni tushunish imkonini beradi va bu shaxsiy loyihalaringiz uchun zarur. "Notatsiya" muammolar yechimini tarqatishda ishlatilgan. Dunyodagi eng qiyin hisoblangan Gradient O‘sishi masalasini hisoblashda eng taniqli matematik algoritmlardan biri hisoblanadi. Ushbu https://en.wikipedia.org/wiki/Gradient_boosting manzilda uning ishlanishi tushuntirilgan. Agar chindan ham ushbu algoritmni qanday ishlashini bilishni istasangiz, notatsiyani yaxshilab o‘rganib olishingiz zarur.



  3. U so‘zlar bilan ifodalanishi qiyin, uzatilishi oson bo‘lgan g‘oyalarni shakllantiradi. Ba’zida so‘zlashish uchun kerakli jumlalarni topa olmaymiz. Shu kabi holatda xabarni yuborishda notatsiyadan foydalangan afzal. Masalan, stikerlar hissiyotni so‘zlardan ko‘ra aniq namoyish qiladi, ya’ni notatsiya asosiy g‘oyani so‘zlardan ko‘ra aniqroq tushuntiradi. Odatda bu kabi g‘oyalar matematikaga tegishli.


Notatsiyaga namuna


Quyidagi videolavhada ko‘p ma’lumot berilmoqda. Quyida asosiy g'oyalar takrorlanadi.

Satrlar hamda ustunlar


Jadvallar bilan ishlashni bilmasangiz, kelgusi darslarda ularga chuqurroq to‘xtalib o‘tiladi. Jadvallar ma’lumot saqlashning keng tarqalgan usuli hisoblanadi. Ular satr hamda ustunlardan iborat. Satrlar gorizontal, ustunlar vertikal joylashadi. Jadvaldagi har bir ustun maxsus o‘zgaruvchini saqlaydi, har bir satr esa namuna yoki individual deb ataladi.

Quyida videolavhada foydalanilgan namuna keltirilgan.



Sana

Hafta kuni

Sayt uchun ketgan vaqt (X)

Sotib olish (Y)

Iyun 15

Payshanba

5

Yo‘q

Iyun 15

Payshanba

10

Ha

Iyun 16

Juma

20

Ha

Bu satr:

Sana

Hafta kuni

Sayt uchun ketgan vaqt (X)

Sotib olish (Y)

Iyun 15

Payshanba

5

Yo‘q

Bu ustun:

Sayt uchun ketgan vaqt (X)

5

10

20

Ma’lumot yig‘ishdan avval


Ma’lumot yig‘ish, dastlab javob berilishi kerak bo‘lgan savollardan boshlanadi. Ma’lumotning maqsadi ushbu savollarga javob berishga yordam berish hisoblanadi.

Tasodifiy o‘zgaruvchilar


Tasodifiy o‘zgaruvchilar ba’zi jarayonlarga tegishli bo‘lgan qiymatlarni saqlaydi. Avvalroq ta’kidlanganidek notatsiya bizga kompleks fikrlarni olish va soddalashtirish uchun foydali. Tasodifiy o‘zgaruvchilar katta harflar bilan belgilanadi (X,Y yoki Z**).

X tasodifiy o‘zgaruvchiga ma’lum foydalanuvchini saytimizda sarflagan vaqtiga tegishli qiymatlarni saqlaydi deb qaraymiz. Yga esa mahsulotni sotib olish yoki olmaslikka oid ma’lumot saqlovchi tasodifiy o‘zgaruvchi deb qaraymiz.

X ma’lum foydalanuvchini saytimizda sarflagan vaqtiga tegishli ma’lumotni saqlaydi. Bu 0 dan cheksizlikkacha bo‘lgan sonlarni oladi.

Katta va kichik harflar


Tasodifiy o‘zgaruvchilar katta harflar bilan taqdim etiladi. Tasodifiy o‘zgaruvchilar natijasini olishimiz bilan, xuddi shu faqat kichik harflar bilan belgilab olamiz.

1-misol


Masalan, kimningdir bizning saytimizda sarflagan vaqti - tasodifiy o‘zgaruvchi bo‘lsa, (tashrif buyurgan odam uchun natija qanday bo‘lishini aniq bilmaymiz), buni X bilan belgilaymiz. Keyin birinchi odam web-saytga kirib, 5 daqiqa sarflasa, ana shu tasodifiy o‘zgaruvchining natijasini kuzata olamiz. Biz har qanday natijani kichik harf bilan yozib, ushbu natijani kuzatilgan tartib raqamiga quyi indeks (belgilash) bilan yozib olar edik.

Agar 5 kishi web saytimizga kirsa, birinchisi 10 daqiqa, ikkinchisi 20 daqiqa, uchinchisi 45 daqiqa, to‘rtinchisi 12 daqiqa, beshinchisi 8 daqiqa vaqt sarflasa; bu muammoni quyidagicha yechamiz:



X bu yerda saytda sarflangan vaqt.

\bold{x_1}x1​ = 10,       \bold{x_2}x2​ = 20       \bold{x_3}x3​ = 45       \bold{x_4}x4​ = 12       \bold{x_5}x5​ = 8.

Katta X bu tasodifiy o‘zgaruvchi bilan bog‘liq bo‘lsa, tasodifiy o‘zgaruvchining kuzatuvi esa kichik x harfi bilan ifodalanadi.


2-misol


Bundan kelib chiqib, quyidagi savolni beramiz:

Kimdir saytimizda 20 daqiqadan ko‘proq vaqt sarflashi mumkinmi?

Buni quyidagicha izohlaymiz:



P(X > 20)?

Bu yerda P "ehtimollik"ni anglatsa, qavslar esa ehtimollik darajasiga aloqador gapni o‘z ichiga oladi. X saytda sarflangan vaqtni bildirar ekan, ushbu belgi saytdagi vaqtning 20 daqiqadan katta bo‘lishi mumkinligini anglatadi.

Buni yuqoridagi misolda 5 ta kuzatuvning bittasi 20 dan oshganini payqash orqali topishimiz mumkin. Demak, 5 dan 1(45) bir yoki 20% ehtimollik bilan foydalanuvchi bizning saytimizda 20 daqiqadan ko‘proq vaqt sarflanishi mumkinligini ko‘rsatadi (yuqoridagi ma’lumotlar to‘plamiga asosan).

3-misol


Bizning veb-saytimizda bir kishining 20 va undan ortiq daqiqa sarflashining ehtimoli qanday? degan savolni beradigan bo‘lsak, buni quyidagicha izohlash mumkin:

P(X \geq 20)?

Saytda besh kishidan ikkitasi 20 yoki undan ko‘p daqiqa sarflaganini bilib oldik. Demak, bu ehtimollik 5 dan 2 yoki 40% ni tashkil etadi.


O‘rta qiymatni hisoblash uchun notatsiya


Bilamizki, o‘rta qiymat ma’lumotlar to‘plamidagi qiymatlar soniga bo‘lingan barcha qiymatlarning yig‘indisiga teng.

Hozirgi notatsiyada barcha qiymatlarni qo‘shish to‘g‘ri kelmaydi. Agar biron bir tasodifiy o‘zgaruvchining 3 ta qiymatini qo‘shishni istasak, quyidagi notatsiya dan foydalanamiz:



\bold{x_1} + \bold{x_2} + \bold{x_3}x1​+x2​+x3

Agar 6 ta qiymatini qo‘shishni istasak, quyidagi notatsiyadan foydalanamiz:



\bold{x_1} + \bold{x_2} + \bold{x_3} + \bold{x_4} + \bold{x_5} + \bold{x_6}x1​+x2​+x3​+x4​+x5​+x6

Qiymatni oshirish uchun yuz, ming yoki bir million qiymatlarni qo‘shish murakkab bo‘lar edi! Buni qanday osonlashtirishimiz mumkin?!


Aggregation (Sonlarni birlashtirish usuli)


Aggregations - bu ko‘p sonli raqamlarni kichikroq songa (odatda bitta songa) aylantirish usulidir.

Summation - bu umumiy yig‘indi. Bizning qiymatlarimizni yig‘ishda ishlatiladigan belgi sigma deb nomlangan grekcha belgidir\SigmaΣ.

1-misol


Tasavvur qiling, saytimizga qancha odam qancha vaqt sarflashini ko‘rib chiqmoqdamiz. To‘qqiz kishidan ma’lumotlarni yig‘amiz:

\bold{x_1}x1​ = 10,       \bold{x_2}x2​ = 20       \bold{x_3}x3​ = 45       \bold{x_4}x4​ = 12       \bold{x_5}x5​ = 8       \bold{x_6}x6​ = 12,       \bold{x_7}x7​ = 3       \bold{x_8}x8​ = 68       \bold{x_9}x9​ = 5

Agar biz dastlabki uchta qiymatni oldingi notatsiyada qo‘shishni istasak, quyidagicha yozamiz:



\bold{x_1} + \bold{x_2} + \bold{x_3}x1​+x2​+x3

Yangi notatsiyada, quyidagicha yozamiz:



\sum\limits_{i = 1}^3 x_ii=1∑3​xi​.

E’tibor bering, notatsiya birinchi kuzatuvimizdan boshlanadi (i=1i=1) va 3 da tugaydi (yig‘indining yuqorisidagi son).

Shunday qilib, quyidagilarning barchasi bir-biriga tengdir:

\sum\limits_{i = 1}^3 x_ii=1∑3​xi​ = \bold{x_1} + \bold{x_2} + \bold{x_3}x1​+x2​+x3​ = 10 + 20 + 45 = 75

2-misol


Tasavvur qiling, biz oxirgi uchta qiymatni birga qo‘shsak,

\bold{x_7} + \bold{x_8} + \bold{x_9}x7​+x8​+x9

Yangi notatsiyada quyidagilarni yozamiz:



\sum\limits_{i = 7}^9 x_ii=7∑9​xi​.

E’tibor bering, notatsiya yettinchi kuzatuvdan boshlanadi (i=7i=7) va 9 da tugaydi (yig‘indining yuqorisidagi son).


Boshqa yig‘indilar


\SigmaΣ belgisi yig‘indilar yordamida qo‘shish uchun ishlatiladi, ammo biz boshqa usulni tanlashimiz mumkin. Yig‘indini hisoblash keng tarqalgan usullardan biridir. Lekin, muqobil usullar bilan ham birlashtirishimiz mumkin. Agar biz barcha qiymatlarni birgalikda ko‘paytirmoqchi bo‘lsak, biz mahsulot belgisi \PiΠ , capital grek harf "pi"dan foydalanamiz. Uzluksiz qiymatlarni qo‘shish usuli integratsiya (hisoblashning umumiy usuli) bo‘lib, \int∫ belgisidan foydalanamiz. Ushbu darsdagi testlarda biz integrallardan foydalanmaymiz, ammo kelajakda ularni ko‘rib chiqamiz!

O‘rtacha qiymatni hisoblash uchun so‘nggi qadamlar


O‘rtacha qiymatni hisoblashni yakunlash uchun ma’lumotlar to‘plamidagi qiymatlarning umumiy soni sifatida nni kiritamiz. Biz ushbu notatsiyani ham yig‘indining yuqori qismiga, ham o‘rta qiymatni hisoblashda ishlata olamiz.

\frac{1}{n}\sum\limits_{i=1}^nx_in1​i=1∑nxi

Yuqoridagilarning barchasini yozish o‘rniga, \bar{x}x¯ ifodasini ma’lumotlar to‘plamining o‘rta qiymatini ifodalash uchun kiritamiz. Birinchi videolavhaga o‘xshash bo‘lsa ham, har qanday o‘zgaruvchidan foydalanishimiz mumkin. Shuning uchun biz \bar{y}y¯​, ni yoki boshqa harfni yozishimiz mumkin.

Bundan tashqari, i ifodasini emas, balki boshqa harflar yordamida indekslashimiz mumkin. Har bir qiymatni indekslash uchun j , k yoki m ni osongina ishlatishimiz mumkin. Keyingi konsepsiyadagi testlar ushbu misolni mustahkamlashga yordam beradi.

Eslatma


0:12 soniyada\sum\limits_{i=1}^5 x_i = x_1 + x_2 + x_3 + x_4 + x_5i=1∑5​xi​=x1​+x2​+x3​+x4​+x5​. The x_ixi​ yig‘indi uchun berilmagan

SQL

"Entity Relationship Diagram(ERD)" - Obyektlar munosabatlari diagrammasi


Obyektlar munosabatlari diagrammasi(OMD) orqali ma’lum bir tashkilotning ma’lumotlar bazasidan kerakli ma’lumotlar bilan tanishib chiqish mumkin. Quyida "Parch & Posey" kompaniyasining OMDsini ma’lumotlar bazasi uchun ishlatamiz. Ushbu diagrammalar tahlil qilinadigan ma‘lumotlar to‘g‘risida yaxshiroq tassavur hosil qilish uchun yordam beradi. Bu ma‘lumotlar quyidagilardir:

  1. Jadvallarning nomlari.

  2. Har bir jadvaldagi ustunlar.

  3. Jadvallarning bir birlari bilan ishlashi.

Quyidagi har bir katakchalarni elektron jadval sifatida ko‘rishingiz mumkin.



Download 192.66 Kb.

Do'stlaringiz bilan baham:
  1   2




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling