Telegram kanal(guruh)laridan matnlarni chiqarib olish va corpus yaratish
Download 14.39 Kb.
|
Topshiriq
Regular Expression(RE) kutubxonasi yordamida input.txt faylidagi matnni gaplarga, so`zlarga ajratgan holda Bag of words(BOW) – so`zlar sumkasini shakillantiring va output.txt fayliga yozing. Eslatma BOW ga so`zlar takrorlanmaydi. NLTK kutubxonasi yordamida input.txt faylidagi matnni gaplarga, so`zlarga ajratgan holda Bag of words(BOW) – so`zlar sumkasini shakillantiring va output.xlsx excel faylga yozing. Eslatma BOW ga so`zlar takrorlanmaydi. Quyidagi link ( https://uz.wikipedia.org/wiki/Turkum:Tarixiy_shaxslar ) orqali uz.wikipedia.org saytidan tarixiy shaxslarning qisqacha ma`lumotlaridan(ism-familiya, tug`ilgan yili, vafot etgan yili) iborat ro`yxat shakllantiring. input.txt faylidagi matnni gaplarga, so`zlarga ajratgan holda so`zlar chastotasi(Frequency table)ni shakillantiring va output.txt fayliga yozing. Eslatma Frequency table ga so`zlar takrorlanmaydi. input.txt faylidagi matnni gaplarga, so`zlarga ajratgan holda so`zlar chastotasi(Frequency table)ni shakillantiring va output.xlsx excel faylga yozing. Eslatma BOW ga so`zlar takrorlanmaydi. Telegram kanal(guruh)laridan matnlarni chiqarib olish va corpus yaratish. Input.txt faylidan berilgan matndagi so`zlarni 2 o`lchamli vector ga o`ting va tekislikda tasvirlang. Input.txt faylida krill harflarida berilgan o`zbekcha matnni lotin harflariga o`tiruvchi va output.txt fayliga yozadigan dastur yarating. Input.txt faylidagi berilgan matndan ro`yhat shakllantiring va ro`yhatni so`zlarning uzunligi bo`yicha tartiblang. Eslatma ro`yxatda so`zlar takrorlanmasin. Download 14.39 Kb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling