Mavzu: tizimda axborotni izlash va ajratib olish


Zipf qonunlaridan foydalanish


Download 89.5 Kb.
bet8/18
Sana05.01.2022
Hajmi89.5 Kb.
#231304
1   ...   4   5   6   7   8   9   10   11   ...   18
Bog'liq
1-mavzu axborotni izlash va ajratib olish

Zipf qonunlaridan foydalanish

  • Matnda so'z necha marotaba uchraganiga so'zning paydo bo'lish chastotasi deyiladi. Agar siz chastotalarni pasayish tartibida tartiblasangiz va ularni raqamlasangiz, u holda chastotaning seriya raqami chastota darajasi deb nomlanadi. Matnda so'zni topish ehtimoli \u003d so'zning yuzaga kelish chastotasi / matndagi so'zlarning soni. Zipf shuni aniqladiki, agar biz matndagi so'zni topish tezligini chastota darajasiga ko'paytirsak, natijada olingan qiymat bir xil tildagi barcha matnlar uchun deyarli o'zgarmas bo'ladi:

  • C \u003d (so'zlarning paydo bo'lishi chastotasi X chastotasi darajasi) / so'zlar soni

  • Bu shuni anglatadiki, daraja grafigi chastotaga nisbatan teng tomonli giperboldir.

  • Zipf shuningdek, berilgan chastotaga ega bo'lgan so'zlar sonining chastotaga bog'liqligi ham bir tilda bo'lgan barcha matnlar uchun giperbola va doimiy ekanligini aniqladi.

  • Ushbu qonunlardan nimani o'rganish mumkin? Yuqoridagi turli matnlarga bog'liqlikni o'rganish shuni ko'rsatdiki, matnning eng muhim so'zlari diagrammaning o'rtasiga to'g'ri keladi, chunki maksimal chastotali so'zlar odatda old qo'shimchalar, zarralar, olmoshlar, ingliz tilida - maqolalar ("to'xtash so'zlari" deb nomlanadi) va kamdan-kam uchraydigan so'zlar ko'p holatlarda tanqidiy emas. Ushbu naqsh asosida quyidagi metodologiyani taklif qilish mumkin.


  • Download 89.5 Kb.

    Do'stlaringiz bilan baham:
  • 1   ...   4   5   6   7   8   9   10   11   ...   18




    Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
    ma'muriyatiga murojaat qiling