Muhammad al-xorazmiy nomidagi tatu urganch filiali


Download 254.32 Kb.
bet9/16
Sana17.06.2023
Hajmi254.32 Kb.
#1542059
1   ...   5   6   7   8   9   10   11   12   ...   16
Bog'liq
Dissertation Rustambek

NLTK bilan ishlash. Birinchi navbatda http://www.nltk.org/ saytidan bepul yuklab olinadigan NLTK paketini o‘rnatib olinadi. Har bir foydalanuvchi o‘z platformasi uchun zarur bo‘lgan versiyani yuklab olish lozim. NLTK paketini o‘rnatgandan so‘ng, Pythonni avvalgidek ishga tushiriladi va quyidagi ikkita buyruqni kiritib, kutubxona uchun zarur bo‘lgan ma’lumotlarni o‘rnatdik va 1-1-rasmda ko‘rsatilgandek korpuslar to‘plamini tanlab oldik.
>>> import nltk
>>> nltk.download()

1-1-rasm.
NLTK kutubxona to‘plamini yuklab olishda nltk.download() yordamida mavjud paketlarni ko‘rib chiqdik. Yuklab oluvchidagi "To‘plamlar" yorlig'i paketlarning qanday qilib guruhlanganligini ko‘rsatadi va biz ushbu kitobdagi misollar va mashqlar uchun zarur bo‘lgan barcha ma’lumotlarni olish uchun chiziqli yorliqli kitobni tanladik. Kitob taxminan 100 Mb joyini talab qiladigan 30 ga yaqin siqilgan fayllardan iboratdir. To‘liq ma‘lumotlar to‘plami bu hajmdan besh baravar ko‘p hajmni egallaydi.
Endi nltk kutubxonasidan nltk.bookni yuklab olamiz:
>>> from nltk.book import *
*** Introductory Examples for the NLTK Book ***
Loading text1, ..., text9 and sent1, ..., sent9
Type the name of the text or sentence to view it.
Type: 'texts()' or 'sents()' to list the materials.
text1: Moby Dick by Herman Melville 1851
text2: Sense and Sensibility by Jane Austen 1811
text3: The Book of Genesis
text4: Inaugural Address Corpus
text5: Chat Corpus
text6: Monty Python and the Holy Grail
text7: Wall Street Journal
text8: Personals Corpus
text9: The Man Who Was Thursday by G . K . Chesterton 1908
>>>
Ushbu matnlar haqida ma'lumot olishni istagan vaqtimizda, ularning ismlarini Pythonga kiritishimiz kifoya:
>>> text1

>>> text2

>>>
Tabiiy tilni qayta ishlash uchun Python kutubxonalari
Tabiiy tilni qayta ishlash suniy intelektli tizimlarni yaratishning juda muhim va dolzarb masalalaridan biri hisoblanadi. Quyida biz shu maqsadda ishlatiladigan Python kutubxonalari bilan tanishib chiqamiz:

SpaCy Pythonda tabiiy tilni qayta ishlash uchun ochiq manbali kutubxona hisoblanadi. Ko'pincha tabiiy tillarni qayta ishlash uchun professional darajadagi Python kutubxonasi sifatida tanilgan spaCy nihoyatda katta hajmdagi axborotni yig‘ish masalalari bilan ishlashda juda yaxshi samara beradi.
Python va Cython yordamida qurilgan spaCy ikkala tilning eng yaxshi xususiyatlarini ya’ni Pythondan qulaylikni va Cythondan tezlikni olgan NLPning eng yaxshi imkoniyatini taqdim etadi. spaCy - bu oddiy ishlarga sarflanadigan vaqtni minimallashtirish orqali mo‘ljallangan kutubxona. SpaCydan foydalanilgan holda olinadigan asosiy natijalar:
● Nutqning bir qismini belgilash
● Tokenizatsiya
●Gapni segmentatsiyasi
● Shaxs va jumlani tanib olish
● Deep Learning bilan uzluksiz integratsiya
● Matnni tozalash va normalizatsiya qilish usullari

Download 254.32 Kb.

Do'stlaringiz bilan baham:
1   ...   5   6   7   8   9   10   11   12   ...   16




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling