Mavzu: Python da ma`lumotlarga dastlabki ishlov berish. Pandas kutubxonasi

import pandas as pd # list of strings lst =

bet	2/6
Sana	26.01.2023
Hajmi	0.86 Mb.
	#1124793

1 2 3 4 5 6

Bog'liq
Mustaqil ish

Ma`lumotlar to`plami ustida bajariladigan amallar. NaN qiymatlarini topish,to`ldirish va olib tashlash

import pandas as pd
# list of strings
lst = ['Geeks', 'For', 'Geeks', 'is',
'portal', 'for', 'Geeks']
# Calling DataFrame constructor on list
df = pd.DataFrame(lst)
print(df)

Ndarray/listlar dictidan DataFrame yaratish: Narray/ro'yxat dictidan DataFrame yaratish uchun barcha rivoyatlar bir xil uzunlikda bo'lishi kerak. Agar indeks uzatilsa, uzunlik indeksi massivlar uzunligiga teng bo'lishi kerak. Agar indeks o'tkazilmasa, sukut bo'yicha indeks diapazon (n) bo'ladi, bu erda n - massiv uzunligi.

# Python code demonstrate creating
# DataFrame from dict narray / lists
# By default addresses.
import pandas as pd
# intialise data of lists.
data = {'Name':['Tom', 'nick', 'krish', 'jack'],
'Age':[20, 21, 19, 18]}
# Create DataFrame
df = pd.DataFrame(data)
# Print the output.
print(df)

Oddiy Pandas DataFrame yaratish:

import pandas as pd
data = {
"calories": [420, 380, 390],
"duration": [50, 40, 45]
}
#load data into a DataFrame object:
df = pd.DataFrame(data)
print(df)
Natija:

Qatorni toping:

Yuqoridagi natijadan ko'rinib turibdiki, DataFrame satr va ustunlardan iborat jadvalga o'xshaydi.
Pandalar bir yoki bir nechta belgilangan qator(lar)ni qaytarish uchun loc atributidan foydalanadilar.
Misol
0-qatorni qaytarish:
#use a list of indexes:
print(df.loc[[0, 1]])

Ma`lumotlar to`plami ustida bajariladigan amallar.
NaN qiymatlarini topish,to`ldirish va olib tashlash
Ma'lumotlarni tahlil qilish uzoq jarayon. Buning uchun ba'zi qadamlar mavjud. Avvalo, biz ma'lumotlarni tan olishimiz kerak. Biz ma'lumotlar to'plamidagi har bir xususiyatni bilishimiz kerak. Keyin biz etishmayotgan qiymatlarni aniqlashimiz va ma'lumotlar to'plamini ushbu NaN qiymatlaridan tozalashimiz kerak. Biz ushbu NaN qiymatlarini ba'zi qiymatlar (o'rtacha, median va boshqalar) bilan to'ldirishimiz mumkin yoki bu etishmayotgan qiymatlarni to'ldirish uchun o'z funksiyamizni yaratishimiz mumkin. Bundan tashqari, foydali bo'lmagan yoki boshqalarga qaraganda ko'proq NaN qiymatlariga ega bo'lgan ba'zi ustunlarni tashlashimiz mumkin.

Bu jarayon o'zgarishi mumkin. Bu ma'lumotlarga va maqsadga bog'liq. Ammo biz nihoyat chet elliklar bilan kurashishimiz kerak. Biz ularni aniqlashimiz va hal qilishimiz kerak. Har bir ma'lumot 1,5 IQR chegarasida bo'ladimi yoki yo'qmi, har xil turdagi o'zgarishlarga ega. Ba'zan bu cheklovlar zararli emas, shuning uchun biz ular bilan shug'ullanmaymiz. Ammo agar biz modellar yoki tahlillarimizda yaxshi natijalarga erishmoqchi bo'lsak, biz o'zimizni chetlab o'tishimiz kerak. Chiqib ketishlar bilan kurashish uchun 3 ta keng tarqalgan usul mavjud.

1. Chiqib ketishlarni olib tashlash.

2. Winsorize usuli.

3. Jurnalni o'zgartirish.

Ushbu demoda biz Seaborn olmos ma'lumotlar to'plamidan foydalanamiz.

Biz olmos ma'lumotlar to'plamining jadval xususiyatini ko'rib chiqamiz va barcha NaN qiymatlari qayta ishlangan deb hisoblaymiz (biz ularni tashlab qo'ydik). Keling, quti va gistogramma grafiklarini ko'rib chiqaylik.

Ko'rib turganingizdek, bu ustunda o'zgarib turadigan ko'rsatkichlar mavjud (u qutida ko'rsatilgan) va u o'ng tomonga burilgan ma'lumotlardir (uni gistogrammada osongina ko'rish mumkin). Boxplot - bu chegaralarni ko'rishning eng yaxshi usuli.
Chiqib ketishdan oldin biz ularni aniqlaymiz. Chet elliklarni aniqlash uchun Tukey qoidasidan foydalanamiz. U IQR qoidasi sifatida ham tanilgan. Birinchidan, biz ma'lumotlarning kvartil oralig'ini hisoblaymiz (IQR = Q3 - Q1). Keyinchalik, biz IQR bilan chegaralarimizni aniqlaymiz.
Q1–1,5 * IQR hisobi bilan biz pastki chegaramizni olamiz. Q3 + 1,5 * IQR hisobi bilan biz yuqori chegaramizni olamiz.
Ushbu qoidaga ko'ra, chegaralar orasidagi ma'lumotlar qabul qilinadi, lekin pastki va yuqori chegaralar orasidagi ma'lumotlar chetga chiqadi. IQRni aniqlash uchun 2,5 yoki 2 dan foydalanishimiz mumkin. Bu bizning ma'lumotlarimiz va tahlillarimizga bog'liq. Ammo eng ko'p ishlatiladigan 1,5 va biz ushbu tahlilda 1,5 IQR dan foydalanamiz.

Pandasni tavsiflash usuli bilan biz ma'lumotlarimizning Q1 (%25) va Q3 (%75) foizlarini ko'rishimiz mumkin. Biz IQR nuqtamiz va chegaralarimizni hisoblashimiz mumkin (1,5 bilan).

Bizning yuqori chegaramiz 63,5, pastki chegaramiz esa 51,5. Bu shuni anglatadiki, 51,5 dan 63,5 gacha bo'lgan qiymatlar maqbuldir, ammo tashqarida bo'lganlar o'zgacha ko'rsatkichlar mavjudligini anglatadi. Shuning uchun biz ularni boshqarishimiz kerak, chunki ular bizning ma'lumotlarimizni buzadi.

Download 0.86 Mb.

Do'stlaringiz bilan baham:

1 2 3 4 5 6