Telegram kanal(guruh)laridan matnlarni chiqarib olish va corpus yaratish


Download 14.39 Kb.
Sana18.06.2023
Hajmi14.39 Kb.
#1561966
Bog'liq
Topshiriq


  1. Regular Expression(RE) kutubxonasi yordamida input.txt faylidagi matnni gaplarga, so`zlarga ajratgan holda Bag of words(BOW) – so`zlar sumkasini shakillantiring va output.txt fayliga yozing. Eslatma BOW ga so`zlar takrorlanmaydi.



  1. NLTK kutubxonasi yordamida input.txt faylidagi matnni gaplarga, so`zlarga ajratgan holda Bag of words(BOW) – so`zlar sumkasini shakillantiring va output.xlsx excel faylga yozing. Eslatma BOW ga so`zlar takrorlanmaydi.



  1. Quyidagi link ( https://uz.wikipedia.org/wiki/Turkum:Tarixiy_shaxslar ) orqali uz.wikipedia.org saytidan tarixiy shaxslarning qisqacha ma`lumotlaridan(ism-familiya, tug`ilgan yili, vafot etgan yili) iborat ro`yxat shakllantiring.



  1. input.txt faylidagi matnni gaplarga, so`zlarga ajratgan holda so`zlar chastotasi(Frequency table)ni shakillantiring va output.txt fayliga yozing. Eslatma Frequency table ga so`zlar takrorlanmaydi.



  1. input.txt faylidagi matnni gaplarga, so`zlarga ajratgan holda so`zlar chastotasi(Frequency table)ni shakillantiring va output.xlsx excel faylga yozing. Eslatma BOW ga so`zlar takrorlanmaydi.



  1. Telegram kanal(guruh)laridan matnlarni chiqarib olish va corpus yaratish.



  1. Input.txt faylidan berilgan matndagi so`zlarni 2 o`lchamli vector ga o`ting va tekislikda tasvirlang.



  1. Input.txt faylida krill harflarida berilgan o`zbekcha matnni lotin harflariga o`tiruvchi va output.txt fayliga yozadigan dastur yarating.



  1. Input.txt faylidagi berilgan matndan ro`yhat shakllantiring va ro`yhatni so`zlarning uzunligi bo`yicha tartiblang. Eslatma ro`yxatda so`zlar takrorlanmasin.

Download 14.39 Kb.

Do'stlaringiz bilan baham:




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling