Axborot izlash bosqichlari


Zipf qonunlaridan foydalanish


Download 18.8 Kb.
bet8/8
Sana05.01.2022
Hajmi18.8 Kb.
#219558
1   2   3   4   5   6   7   8
Bog'liq
Axborot izlash bosqichlari savollar1

Zipf qonunlaridan foydalanish

Matnda so'z necha marotaba uchraganiga so'zning paydo bo'lish chastotasi deyiladi. Agar siz chastotalarni pasayish tartibida tartiblasangiz va ularni raqamlasangiz, u holda chastotaning seriya raqami chastota darajasi deb nomlanadi. Matnda so'zni topish ehtimoli \u003d so'zning yuzaga kelish chastotasi / matndagi so'zlarning soni. Zipf shuni aniqladiki, agar biz matndagi so'zni topish tezligini chastota darajasiga ko'paytirsak, natijada olingan qiymat bir xil tildagi barcha matnlar uchun deyarli o'zgarmas bo'ladi:

C \u003d (so'zlarning paydo bo'lishi chastotasi X chastotasi darajasi) / so'zlar soni

Bu shuni anglatadiki, daraja grafigi chastotaga nisbatan teng tomonli giperboldir.



Zipf shuningdek, berilgan chastotaga ega bo'lgan so'zlar sonining chastotaga bog'liqligi ham bir tilda bo'lgan barcha matnlar uchun giperbola va doimiy ekanligini aniqladi.

Ushbu qonunlardan nimani o'rganish mumkin? Yuqoridagi turli matnlarga bog'liqlikni o'rganish shuni ko'rsatdiki, matnning eng muhim so'zlari diagrammaning o'rtasiga to'g'ri keladi, chunki maksimal chastotali so'zlar odatda old qo'shimchalar, zarralar, olmoshlar, ingliz tilida - maqolalar ("to'xtash so'zlari" deb nomlanadi) va kamdan-kam uchraydigan so'zlar ko'p holatlarda tanqidiy emas. Ushbu naqsh asosida quyidagi metodologiyani taklif qilish mumkin.
Download 18.8 Kb.

Do'stlaringiz bilan baham:
1   2   3   4   5   6   7   8




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling