Mavzu: Python da ma`lumotlarga dastlabki ishlov berish. Pandas kutubxonasi


- Chetdan tashqari ko'rsatkichlarni olib tashlash


Download 0.86 Mb.
bet3/6
Sana26.01.2023
Hajmi0.86 Mb.
#1124793
1   2   3   4   5   6
Bog'liq
Mustaqil ish

1 - Chetdan tashqari ko'rsatkichlarni olib tashlash;
Biz cheklovchilarni osongina olib tashlashimiz mumkin, ammo bu bizning ma'lumotlarimizni toraytiradi. Agar bizda juda ko'p qatorlar, katta ma'lumotlar bo'lsa, ehtimol biz tavakkal qilishimiz mumkin. Ammo esda tutingki, agar biz qiymatni tushirsak, barcha yozuvlarni (qatorni) o'chirib tashlaymiz. Agar bizda zaif yozuvlar bo'lsa, ular yo'qolishi mumkin.

Chiqib ketish va indeksga erishish uchun biz bir nechta tenglamalar qilamiz. Ko'rib turganingizdek, agar biz chet elliklarni tashlasak, biz 605 ta yozuvni yo'qotamiz. 27-qator bizni chetlab o'tishlarni ko'rsatadi. 28-qator bizga ma'lumotlarni cheksiz ko'rsatkichlarsiz ko'rsatadi. Jadvallarning uzunligini tekshiring. Boshida bizda 53940 qator bor edi.

Chiqib ketishlarni olib tashladik va maʼlumotlar qatorlarimiz 53335 ga tushdi. Chiqib ketishlarni olib tashlagach, maʼlumotlarimizning qutisi va gistogrammasini tekshiramiz.

Endi bizda hech qanday cheklov yo'q.
2 - Winsorize usuli;
Bizning ikkinchi usulimiz Winsorize usuli. Winsorize usulida biz yuqori va pastki chegaralar bilan cheklovchilarni cheklaymiz. Biz chegaralarni belgilaymiz. Biz maʼlumotlar uchun yuqori va pastki chegaralarni yangi maksimal va minimal nuqtalarga aylantiramiz.
Biz yana olmos ma'lumotlar to'plamining jadval ustunidan foydalanamiz. Keling, quti chizig'ini yana bir bor tekshiramiz.

Bizda chet elliklar bor, biz ularni boshida aniqladik. Cheklanganlar uchun bizning yuqori chegaramiz 63,5, pastki chegaramiz esa 51,5.
Winsorize usuli uchun biz Scipy'dan winsorize import qilishimiz kerak. Winsorize dasturini qo'llash uchun bizga chegaralar kerak. Biz maʼlumotlarimizni 53 va 63 oraligʻida cheklab qoʻyamiz. Bu qiymatlar oʻta chegaralangan. Bizga ushbu qiymatlarning foizda aniq nuqtalari kerak va biz Pandalarning kvantil usulidan foydalanishimiz mumkin.

Winsorize usuli bilan yangi o'zgaruvchi yaratamiz. Winsorize usulini amalga oshirish uchun biz aniq chegara nuqtalarini foizda kortej sifatida yozamiz. Masalan, biz (0,01, 0,02) yozamiz. Bu biz kvant (0,01) va kvant (0,98) ni chegara sifatida qo'llashni xohlaymiz degan ma'noni anglatadi. Birinchisi, boshidan boshlab foiz bo'yicha aniq nuqta, ikkinchisi - oxiridan boshlab foiz bo'yicha aniq nuqta.

Biz Winsorize usulini qo'lladik, keling, grafiklardagi ma'lumotlarni tekshiramiz.

Ko'rib turganingizdek, hech qanday cheklov yo'q. Bunga e'tibor qarating, qutidagi maksimal va minimal qiymatlarimiz; 53 va 63. Biz ularni chegara sifatida qo'lladik. Endi biz eski va yangi ma'lumotlarning tavsiflovchi statistik qiymatlarini tavsiflash usuli bilan ko'rib chiqishimiz mumkin.

Ta'riflash usulini amalga oshirish uchun df_table_win seriyasiga o'zgartirdim. E'tibor bering, df_table_win ning o'rtacha va standart og'ishi o'zgargan. Minimal va maksimal nuqtalar ham o'zgardi, ammo bu o'zgarishlar median-mantiqiy tavsiflovchi statistik qiymatlarga ta'sir qilmaydi. Shuning uchun biz Winsorize usulini ehtiyotkorlik bilan qo'llashimiz kerak, chunki siz ko'rib turganingizdek, o'rtacha mantiqiy tavsiflovchi statistik qiymatlar o'zgarishi mumkin. Bu bizning ma'lumotlarimizni buzishi, tahlilimizga zarar etkazishi yoki modellarga salbiy ta'sir ko'rsatishi mumkin.

Download 0.86 Mb.

Do'stlaringiz bilan baham:
1   2   3   4   5   6




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling