Ҳужжатларни таснифлаш (классификацияси) ҳақида умумий тушунча


Download 155.33 Kb.
bet5/10
Sana03.12.2023
Hajmi155.33 Kb.
#1799036
1   2   3   4   5   6   7   8   9   10
Bog'liq
Ҳужжатларни таснифлаш

1. Таърифи ва аҳамияти


Ҳужжатларни таснифлашнинг таърифи ҳужжатларни мазмуни ёки хусусиятларига кўра автоматик равишда тартибга солиш ёки туркумлаш жараёнини англатади. У маълумот олиш, маълумотларни қазиб олиш ва табиий тилни қайта ишлаш каби турли соҳаларда ҳал қилувчи рол ўйнайди. Ҳужжатларни таснифлаш муҳим аҳамиятга эга, чунки у ҳужжатларни самарали бошқаришга ёрдам беради, ахборот қидириш тизимларини яхшилайди ва қарор қабул қилиш жараёнларини осонлаштиради (Ларасати, 2020).

2. Умумий хусусиятларни ажратиб олиш усуллари


Ҳужжатни таснифлашда умумий хусусиятларни ажратиб олиш усуллари муҳим аҳамиятга эга, чунки улар ҳужжатнинг тегишли томонларини аниқлашга ва уларни машинани ўрганиш алгоритмлари учун мос форматда тақдим этишга қаратилган.
Ушбу усулларга сўзлар сумкаси, н-грамм ва атама частотасига тескари ҳужжат частотаси (ТФ-ИДФ) киради. Сўзлар халтаси ҳужжатни унинг таркибига кирувчи сўзлар тўплами сифатида уларнинг тартибини ҳисобга олмаган ҳолда ифодалайди, н-грамм узунлиги н бўлган сўзларнинг кетма-кетлигини аниқлайди ва ТФ-ИДФ ҳужжатдаги атаманинг аҳамиятини унинг ушбу ҳужжатдаги частотасига қараб ҳисоблаб чиқади ва бутун корпусдаги тескари частота (Зҳанг, 2010). Ушбу хусусиятни ажратиб олиш усуллари кириш майдонининг ўлчамларини камайтиришга ва таснифлаш моделларининг аниқлигини оширишга ёрдам беради.

Б. Матнни тасвирлаш


Ҳужжатларни кўрсатиш учун сўзлар сумкаси моделидан фойдаланишдан ташқари, матнни кўрсатишда яна бир кенг тарқалган ёндашув сўзларни жойлаштиришдан фойдаланишдир. Сўзларни ўрнатиш - бу сўзларнинг семантик муносабатларига асосланган юқори ўлчовли фазодаги зич вектор тасвиридир. Улар сўзларнинг маъноси ва контекстини ушбу бўшлиқдаги нуқталар билан таққослайдилар. Сўзларни жойлаштиришнинг машҳур модели Wорд2Веc бўлиб, у катта ҳажмдаги матн маълумотларидан сўз кўринишини ўрганиш учун нейрон тармоқ архитектурасидан фойдаланади. Ушбу сўзларни жойлаштиришлар ҳужжатдаги сўзларнинг семантик маълумотларини олиш имконини берувчи ҳужжатларни таснифлаш алгоритмлари учун кириш хусусиятлари сифатида ишлатилиши мумкин (Миколов ва бошқ., 2013). Сўзларни жойлаштиришдан фойдаланган ҳолда, ҳужжатларни таснифлаш жараёни матннинг маъноси ва контекстини тушунишда самаралироқ бўлади (Ле ва Миколов, 2014).

Download 155.33 Kb.

Do'stlaringiz bilan baham:
1   2   3   4   5   6   7   8   9   10




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling