Ҳужжатларни таснифлаш (классификацияси) ҳақида умумий тушунча


Download 155.33 Kb.
bet6/10
Sana03.12.2023
Hajmi155.33 Kb.
#1799036
1   2   3   4   5   6   7   8   9   10
Bog'liq
Ҳужжатларни таснифлаш

1. Таърифи ва аҳамияти
Ҳужжатларни таснифлаш деганда ҳужжатларни мазмуни ёки хусусиятларига кўра турли гуруҳлар ёки синфларга бўлиш жараёни тушунилади. Бу ахборотни қидириш ва табиий тилларни қайта ишлаш дастурларида ҳал қилувчи вазифадир (Янг ва бошқ., 1999). Ҳужжатларни маълум синфларга белгилаш орқали ҳужжатлар таснифи маълумотларни самарали ташкил этиш ва қидиришни осонлаштиради, бу фойдаланувчиларга ҳужжатларнинг катта тўпламидан тегишли маълумотларни осонгина олиш ва олиш имконини беради (Себастиани, 2002). Бундан ташқари, ҳужжатларни таснифлаш ҳужжатларни бошқариш, электрон почтани филтрлаш ва спамни аниқлаш каби турли соҳаларда муҳим рол ўйнайди, бу эрда аниқ таснифлаш вазифаларни автоматлаштириш ва ушбу тизимлар самарадорлигини оширишга ёрдам беради (Янг ва бошқ., 1999; Себастиани, 2002). Аслини олганда, ҳужжатларни таснифлаш ахборотни тартибга солиш ва турли автоматлаштирилган тизимларнинг иш фаолиятини оптималлаштиришда муҳим аҳамиятга эга.

2. Матнни тасвирлашнинг машҳур усуллари


Ҳужжатларни таснифлашда турли хил машҳур матнни кўрсатиш усуллари қўлланилади. Сўз сумкаси (БоW) - ҳужжат сўз частоталари вектори сифатида тақдим этиладиган шундай усуллардан биридир. Терм частотаси-тескари ҳужжат частотаси (ТФ-ИДФ) ҳужжатни нормаланган сўз частоталари вектори сифатида ифодаловчи яна бир усулдир. Ушбу усуллар матн таснифлаш вазифаларида кенг қўлланилган (Деҳғани ва бошқ., 2017).

C. Машинани ўрганиш алгоритмлари


Машинани ўрганиш алгоритмлари ҳужжатларни таснифлашда муҳим воситадир. Ушбу алгоритмлар аниқ дастурлаштирилмаган ҳолда катта маълумотлар тўпламидан нақш ва муносабатларни автоматик равишда ўрганиш учун мўлжалланган.
Улар киритилган маълумотлар асосида башорат қилиш ёки қарор қабул қилиш учун статистик усуллардан фойдаланадилар. Масалан, Наиве Баес алгоритми одатда матнларни таснифлаш вазифаларида қўлланилади. У Баес теоремасига асосланади ва барча хусусиятлар мустақил деб ҳисоблайди. Яна бир машҳур алгоритм - бу маълумотлар нуқталарини улар орасидаги чегарани максимал даражада ошириш орқали турли синфларга ажратадиган Ёрдам Вектор машинаси (СВМ). Ушбу алгоритмлар турли соҳаларда, жумладан, табиий тилларни қайта ишлаш ва маълумотларни қидиришда кенг қўлланилган (Журафскй & Мартин, 2019).

Download 155.33 Kb.

Do'stlaringiz bilan baham:
1   2   3   4   5   6   7   8   9   10




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling