Samarqand davlat universiteti intellektual tizimlar va axborot texnologiyalari fakulteti


Download 290 Kb.
bet4/10
Sana24.12.2022
Hajmi290 Kb.
#1052189
1   2   3   4   5   6   7   8   9   10
Bog'liq
407-GURUH.FAYZULLAYEV.A BIG DATA

10.Zipf qonunlaridan foydalanish
Matnda so'z necha marotaba uchraganiga so'zning paydo bo'lish chastotasi deyiladi. Agar siz chastotalarni pasayish tartibida tartiblasangiz va ularni raqamlasangiz, u holda chastotaning seriya raqami chastota darajasi deb nomlanadi. Matnda so'zni topish ehtimoli \u003d so'zning yuzaga kelish chastotasi / matndagi so'zlarning soni. Zipf shuni aniqladiki, agar biz matndagi so'zni topish tezligini chastota darajasiga ko'paytirsak, natijada olingan qiymat bir xil tildagi barcha matnlar uchun deyarli o'zgarmas bo'ladi:C \u003d (so'zlarning paydo bo'lishi chastotasi X chastotasi darajasi) / so'zlar soni. Bu shuni anglatadiki, daraja grafigi chastotaga nisbatan teng tomonli giperboldir. Zipf shuningdek, berilgan chastotaga ega bo'lgan so'zlar sonining chastotaga bog'liqligi ham bir tilda bo'lgan barcha matnlar uchun giperbola va doimiy ekanligini aniqladi.
Ushbu qonunlardan nimani o'rganish mumkin? Yuqoridagi turli matnlarga bog'liqlikni o'rganish shuni ko'rsatdiki, matnning eng muhim so'zlari diagrammaning o'rtasiga to'g'ri keladi, chunki maksimal chastotali so'zlar odatda old qo'shimchalar, zarralar, olmoshlar, ingliz tilida - maqolalar ("to'xtash so'zlari" deb nomlanadi) va kamdan-kam uchraydigan so'zlar ko'p holatlarda tanqidiy emas. Ushbu naqsh asosida quyidagi metodologiyani taklif qilish mumkin.
11.Kalit so'zlarni ro'yxati
To'g'ri kalit so'zlar to'plami ma'lumotni maqbul izlash uchun hal qiluvchi ahamiyatga ega. Masalan, qidiruv tizimini "MARP" kalit so'zi sifatida belgilab, biz ushbu qisqartirish paydo bo'lgan hujjatlar ro'yxatini olamiz (Moskva Tadbirkorlikni rivojlantirish bo'yicha agentlik). Ammo, agar biz kengroq mavzudagi hujjatlar bilan qiziqsak, masalan: tadbirkorlikni rivojlantirish va biz ushbu ikki so'zdan sodda so'rovni hosil qilsak, unda qidiruv tizimi bizga yuz minglab elementlarning ro'yxatini beradi, ularni boshqarish juda qiyin bo'ladi.
Shu sababli, kalit so'zlarning maqbul to'plamini tuzish uchun Zipf qonunlarini qo'llashga asoslangan protsedura qo'llaniladi, u quyidagilardan iborat: ular istalgan mavzuga yaqin bo'lgan har qanday manbali matnni olishadi, ya'ni. "namuna" va muhim so'zlarni ta'kidlab, tahlil qiling. Manba matni kitob, maqola, veb-sahifa yoki boshqa hujjat bo'lishi mumkin. Matn tahlili quyidagicha amalga oshiriladi:

Download 290 Kb.

Do'stlaringiz bilan baham:
1   2   3   4   5   6   7   8   9   10




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling