Samarqand davlat universiteti intellektual tizimlar va axborot texnologiyalari fakulteti


Ma’lumotlarni ajratib olish. Pandas kutubxonasi


Download 290 Kb.
bet10/10
Sana24.12.2022
Hajmi290 Kb.
#1052189
1   2   3   4   5   6   7   8   9   10
Bog'liq
407-GURUH.FAYZULLAYEV.A BIG DATA

24.Ma’lumotlarni ajratib olish. Pandas kutubxonasi.
Python -bu ma'lumotlarni ajratib olish uchun ajoyib til, birinchi navbatda ma'lumotlarga asoslangan Python paketlarining ajoyib ekotizimlari tufayli. Pandas bu paketlardan biri bo'lib, ma'lumotlarni import qilish va tahlil qilishni ancha osonlashtiradi.
Pandaslar ma'lumotlar ramkasidan qatorlarni olishning noyob usulini taqdim etadi. DataFrame. Loc [] usul faqat indeks belgilarini oladigan va agar qo'ng'iroq qiluvchining ma'lumotlar ramkasida indeks yorlig'i mavjud bo'lsa, qator yoki dataframeni qaytaradigan usul. Sintaksis: pandas. DataFrame. Loc [].
Python Pandas aloqador yoki etiketli ma'lumotlar uchun ishlatiladi va bunday ma'lumotlar va vaqt seriyalarini boshqarish uchun turli xil ma'lumotlar tuzilmalarini taqdim etadi. Bu kutubxona NumPy kutubxonasi ustiga qurilgan. Ushbu modul odatda import qilinadi.
25.Pandas GroupBy
Groupby - bu juda oddiy tushuncha. Biz toifalar guruhini yaratishimiz va toifalarga funktsiyani qo'llashimiz mumkin. Haqiqiy ma'lumotlar fanlari loyihalarida siz katta hajmdagi ma'lumotlar bilan shug'ullanasiz va narsalarni qayta-qayta sinab ko'rasiz, shuning uchun samaradorlik uchun biz Groupby kontseptsiyasidan foydalanamiz. Groupby asosan quyidagi bosqichlardan bir yoki bir nechtasini o'z ichiga olgan jarayonni nazarda tutadi, ular:
Ajratish: Bu ma'lumotlar to'plamlarida ba'zi shartlarni qo'llash orqali ma'lumotlarni guruhlarga bo'lish jarayonidir. Qo’llash: Bu biz har bir guruhga mustaqil ravishda funktsiyani qo'llaydigan jarayondir. Birlashtirish: Bu guruh va natijalarni qo'llaganimizdan so'ng biz turli ma'lumotlar to'plamlarini ma'lumotlar strukturasiga birlashtirgan jarayondir.
26.pandaslarni pd sifatida import qilish
Bu erda pd Pandalarga taxallus deb ataladi. Biroq, taxallus yordamida kutubxonani import qilish shart emas, u har safar usul yoki xususiyat chaqirilganda kamroq miqdor kodini yozishga yordam beradi. Pandalar odatda ma'lumotlarni manipulyatsiya qilish uchun ikkita ma'lumotlar tuzilmasini taqdim etadilar, ular:

  1. Seriya

  2. Dataframe

Pandas Series - bu har qanday turdagi ma'lumotlarni (butun son, satr, float, python ob'ektlari va boshqalar) saqlashga qodir bo'lgan bir o'lchovli etiketli massiv. Eksa teglari birgalikda indekslar deb ataladi. Pandalar seriyasi Excel varaqidagi ustundan boshqa narsa emas. Yorliqlar noyob boʻlishi shart emas, lekin xeshlanadigan turdagi boʻlishi kerak. Ob'ekt butun son va tegga asoslangan indekslashni qo'llab-quvvatlaydi va indeks bilan bog'liq operatsiyalarni bajarish uchun ko'plab usullarni taqdim etadi.

U Series () funktsiyasidan foydalanib, ma'lumotlar to'plamini SQL, ma'lumotlar bazasi, CSV fayllari, Excel fayllari va boshqalar kabi mavjud xotiradan yoki ro'yxatlar, lug'atlar va boshqalar kabi ma'lumotlar tuzilmalaridan yuklash orqali yaratilishi mumkin.
import pandas as pd
import numpy as np
ser = pd. Series ()
print(ser)
data = np. Array (['g', 'e', 'e', 'k', 's'])
ser = pd. Series (data)
print(ser)
Natija

Dataframe
Pandas DataFrame bu ikki oʻlchamli oʻlchamli oʻzgaruvchan, yorliqlangan oʻqlari (satrlar va ustunlar) bilan potentsial heterojen jadvalli maʼlumotlar strukturasidir. Ma'lumotlar ramkasi - bu ikki o'lchovli ma'lumotlar strukturasi, ya'ni ma'lumotlar satr va ustunlarda jadval shaklida tekislanadi. Pandas DataFrame uchta asosiy komponentdan, ma'lumotlar, qatorlar va ustunlardan iborat.

U Dataframe () usuli yordamida yaratilishi mumkin va xuddi seriyalar kabi turli fayl turlari va ma'lumotlar tuzilmalaridan ham bo'lishi mumkin.


Download 290 Kb.

Do'stlaringiz bilan baham:
1   2   3   4   5   6   7   8   9   10




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling