Mavzu: Python da ma`lumotlarga dastlabki ishlov berish. Pandas kutubxonasi
import pandas as pd # list of strings lst =
Download 16.27 Kb.
|
Mavzu Python da ma`lumotlarga dastlabki ishlov berish. Pandas k-fayllar.org
- Bu sahifa navigatsiya:
- Ma`lumotlar to`plami ustida bajariladigan amallar. NaN qiymatlarini topish,to`ldirish va olib tashlash
import pandas as pd
# list of strings lst = ['Geeks', 'For', 'Geeks', 'is', 'portal', 'for', 'Geeks'] # Calling DataFrame constructor on list df = pd.DataFrame(lst) print(df) Ndarray/listlar dictidan DataFrame yaratish: Narray/ro'yxat dictidan DataFrame yaratish uchun barcha rivoyatlar bir xil uzunlikda bo'lishi kerak. Agar indeks uzatilsa, uzunlik indeksi massivlar uzunligiga teng bo'lishi kerak. Agar indeks o'tkazilmasa, sukut bo'yicha indeks diapazon (n) bo'ladi, bu erda n - massiv uzunligi. # Python code demonstrate creating # DataFrame from dict narray / lists # By default addresses. import pandas as pd # intialise data of lists. data = {'Name':['Tom', 'nick', 'krish', 'jack'], 'Age':[20, 21, 19, 18]} # Create DataFrame df = pd.DataFrame(data) # Print the output. print(df) Oddiy Pandas DataFrame yaratish: import pandas as pd data = { "calories": [420, 380, 390], "duration": [50, 40, 45] } #load data into a DataFrame object: df = pd.DataFrame(data) print(df) Natija: Qatorni toping: Yuqoridagi natijadan ko'rinib turibdiki, DataFrame satr va ustunlardan iborat jadvalga o'xshaydi.
1. Chiqib ketishlarni olib tashlash. 2. Winsorize usuli. 3. Jurnalni o'zgartirish. Ushbu demoda biz Seaborn olmos ma'lumotlar to'plamidan foydalanamiz. Biz olmos ma'lumotlar to'plamining jadval xususiyatini ko'rib chiqamiz va barcha NaN qiymatlari qayta ishlangan deb hisoblaymiz (biz ularni tashlab qo'ydik). Keling, quti va gistogramma grafiklarini ko'rib chiqaylik. Ko'rib turganingizdek, bu ustunda o'zgarib turadigan ko'rsatkichlar mavjud (u qutida ko'rsatilgan) va u o'ng tomonga burilgan ma'lumotlardir (uni gistogrammada osongina ko'rish mumkin). Boxplot - bu chegaralarni ko'rishning eng yaxshi usuli.
Pandasni tavsiflash usuli bilan biz ma'lumotlarimizning Q1 (%25) va Q3 (%75) foizlarini ko'rishimiz mumkin. Biz IQR nuqtamiz va chegaralarimizni hisoblashimiz mumkin (1,5 bilan). Bizning yuqori chegaramiz 63,5, pastki chegaramiz esa 51,5. Bu shuni anglatadiki, 51,5 dan 63,5 gacha bo'lgan qiymatlar maqbuldir, ammo tashqarida bo'lganlar o'zgacha ko'rsatkichlar mavjudligini anglatadi. Shuning uchun biz ularni boshqarishimiz kerak, chunki ular bizning ma'lumotlarimizni buzadi.
Download 16.27 Kb. Do'stlaringiz bilan baham: |
ma'muriyatiga murojaat qiling