2. Ma'lumotlaringiz bilan tanishish


Download 282.17 Kb.
Pdf ko'rish
bet5/5
Sana18.03.2023
Hajmi282.17 Kb.
#1282842
1   2   3   4   5
Bog'liq
muhriddin (1)

tasavvurga ega bo'lishni xohlaymiz. Ya'ni, ma'lumotlar qanday tarqaladi? Ma'lumotlarning tarqalishining eng keng tarqalgan
o'lchovlari diapazon, kvartillar va kvartillar oralig'idir; besh raqamdan iborat xulosa va qutilar; va ma'lumotlarning dispersiyasi
va standart og'ishi .
Agar atribut diskret bo'lmasa, u uzluksizdir. Adabiyotda raqamli atribut va uzluksiz atribut atamalari ko'pincha bir-birining
o'rnida ishlatiladi. (Bu chalkash bo'lishi mumkin, chunki klassik ma'noda uzluksiz qiymatlar haqiqiy sonlar, raqamli qiymatlar
esa butun yoki haqiqiy sonlar bo'lishi mumkin.) Amalda haqiqiy qiymatlar cheklangan sonli raqamlar yordamida ifodalanadi.
Uzluksiz atributlar odatda suzuvchi nuqtali o'zgaruvchilar sifatida ifodalanadi.
Ushbu bo'limda biz ma'lumotlarning markaziy tendentsiyasini o'lchashning turli usullarini ko'rib chiqamiz. Aytaylik, bizda bir
qator ob'ektlar uchun qayd etilgan ish haqi kabi X atributi bor. X uchun N kuzatilgan qiymatlar yoki kuzatishlar to'plami bo'lsin.
Bu erda bu qiymatlarni ma'lumotlar to'plami ( X uchun) deb ham atash mumkin . Agar biz ish haqi bo'yicha
kuzatuvlarni tuzadigan bo'lsak , qiymatlarning aksariyati qayerga tushadi? Bu bizga ma'lumotlarning markaziy tendentsiyasi
haqida fikr beradi. Markaziy tendentsiya ko'rsatkichlari o'rtacha, median, rejim va o'rta diapazonni o'z ichiga oladi.
Xususan, biz o'rtacha, median, rejim va o'rta diapazonni muhokama qilamiz.
Ushbu bo'limda asosiy statistik tavsiflarning uchta sohasi ko'rib chiqiladi. Biz ma'lumotlar taqsimotining o'rtasi yoki
markazining joylashishini o'lchaydigan markaziy tendentsiya ko'rsatkichlaridan boshlaymiz
(2.2.1-bo'lim) .
Intuitiv ravishda
aytganda, atribut berilganda, uning ko'p qiymatlari qayerga tushadi?
har birining chekli sonli qiymatlari bor va diskret ham. E'tibor bering, diskret atributlar raqamli qiymatlarga ega bo'lishi
mumkin, masalan, ikkilik atributlar uchun 0 va 1 yoki atribut yoshi uchun 0 dan 110 gacha bo'lgan qiymatlar. Agar mumkin
bo'lgan qiymatlar to'plami cheksiz bo'lsa, lekin qiymatlarni natural sonlar bilan birma-bir yozishmalarda qo'yish mumkin
bo'lsa, atribut hisoblab bo'ladigan cheksiz hisoblanadi. Masalan, customer_ID atributi cheksiz hisoblanadi. Mijozlar soni
cheksizgacha o'sishi mumkin, ammo aslida qiymatlarning haqiqiy to'plamini hisoblash mumkin (bu erda qiymatlarni butun
sonlar to'plami bilan birma-bir yozishmalarda qo'yish mumkin). Pochta indekslari yana bir misol.
butun sonlar sifatida ifodalanadi. Soch_rangi, chekuvchi, tibbiy_test va ichimlik_size atributlari
Machine Translated by Google


47
Jiawei Xan
bizda ... bor
Bu o'rtacha og'irlikdagi arifmetik yoki o'rtacha vaznli deb ataladi. Garchi o'rtacha ma'lumotlar to'plamini tavsiflash uchun eng
foydali miqdor bo'lsa-da, u har doim ham ma'lumotlar markazini o'lchashning eng yaxshi usuli emas. O'rtacha bilan bog'liq
asosiy muammo uning haddan tashqari (masalan, o'zgaruvchan) qiymatlarga sezgirligidir. Hatto kichik miqdordagi ekstremal
qiymatlar ham o'rtacha qiymatni buzishi mumkin. Misol uchun, kompaniyadagi o'rtacha ish haqini bir nechta yuqori maosh
oladigan menejerlar sezilarli darajada oshirishi mumkin. Xuddi shunday, imtihondagi sinfning o'rtacha ballini bir nechta juda
past ball bilan biroz tushirish mumkin. Kam sonli ekstremal qiymatlardan kelib chiqadigan ta'sirni bartaraf etish uchun biz
o'rniga kesilgan o'rtacha qiymatdan foydalanishimiz mumkin, bu yuqori va pastki ekstremal qiymatlarni kesib tashlaganidan
keyin olingan o'rtacha. Misol uchun, biz ish haqi uchun kuzatilgan qiymatlarni saralashimiz va o'rtacha qiymatni hisoblashdan
oldin yuqori va pastki 2% ni olib tashlashimiz mumkin. Biz ikkala uchida juda katta qismini (masalan, 20%) kesishdan
qochishimiz kerak, chunki bu qimmatli ma'lumotlarning yo'qolishiga olib kelishi mumkin.
Ehtimollik va statistikada median odatda raqamli ma'lumotlarga qo'llaniladi; ammo, biz kontseptsiyani tartibli ma'lumotlarga
kengaytirishimiz mumkin. Faraz qilaylik, X atributi uchun N qiymatdan iborat berilgan ma’lumotlar to‘plami o‘sish tartibida
tartiblangan. Agar N toq bo'lsa, mediana ning o'rta qiymati hisoblanadi
(2.2)
Eq. (2.1)
[MA'LUMOTLARNI QAZIB OLISH: TUSHUNCHALAR VA TEXNIKALAR 3-NASHI]
Ba'zan to'plamdagi har bir xi qiymati wi uchun og'irlik bilan bog'lanishi mumkin . Og'irliklar ularning tegishli qiymatlariga
biriktirilgan ahamiyati, ahamiyati yoki paydo bo'lish chastotasini aks ettiradi. Bunday holda, biz hisoblashimiz mumkin
30, 36, 47, 50, 52, 52, 56, 60, 63, 70, 70, 110. Foydalanish: Biz ish haqi uchun quyidagi qiymatlari (ming dollar), ortib tartibda
ko'rsatilgan deylik.
Egri (assimetrik) ma'lumotlar uchun ma'lumotlar markazining yaxshiroq o'lchovi mediana hisoblanadi, bu tartiblangan
ma'lumotlar qiymatlari to'plamidagi o'rta qiymatdir. Bu ma'lumotlar to'plamining yuqori yarmini pastki yarmidan ajratib
turadigan qiymatdir.
Shunday qilib, o'rtacha ish haqi 58 000 dollarni tashkil qiladi.
,
Anglatadi
Bu relyatsion ma'lumotlar bazasi tizimlarida taqdim etilgan o'rnatilgan agregat funktsiyasiga, o'rtacha (SQLda avg()) mos
keladi.
Machine Translated by Google

Download 282.17 Kb.

Do'stlaringiz bilan baham:
1   2   3   4   5




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling