Ҳужжатларни таснифлаш (классификацияси) ҳақида умумий тушунча


Download 155.33 Kb.
bet3/10
Sana03.12.2023
Hajmi155.33 Kb.
#1799036
1   2   3   4   5   6   7   8   9   10
Bog'liq
Ҳужжатларни таснифлаш

А. Бошқариладиган тасниф
Назорат остидаги таснифлаш янги, кўринмас мисолларни олдиндан белгиланган тоифаларга таснифлаш учун белгиланган маълумотлар тўпламида машинани ўрганиш моделини ўргатиш жараёнини англатади. Ушбу ёндашув ҳужжатларни хусусиятларига кўра аниқ таснифлашни ўргатиш учун қўлда ёрлиқланган мисоллар билан ўқув мажмуасини талаб қилади (Маннинг ва бошқ., 2008). Ёрлиқлаш жараёни ўқув тўпламидаги ҳар бир ҳужжатни тегишли тоифага белгилашни ўз ичига олади, бу кўпинча инсон аннотаторлари томонидан амалга оширилади (Себастиани, 2002). Наиве Баес, Суппорт Веcтор Мачинес ва Деcисион Треес каби назорат қилинадиган таснифлаш алгоритмлари этикетли ўқув маълумотларидан янги, кўринмас ҳужжатларга тоифаларни белгилаши мумкин бўлган башоратли моделни яратиш учун фойдаланади (Маннинг ва бошқ., 2008). Улар таълим маълумотларидан тегишли хусусиятларни ажратиб оладилар ва турли тоифалар ўртасида фарқловчи нақшларни ўрганиш учун статистик усуллардан фойдаланадилар (Себастиани, 2002).

1. Таъриф ва жараён


Ҳужжатларни таснифлаш - матнли маълумотларни мазмун ёки мавзу каби муайян мезонлар асосида олдиндан белгиланган синфларга ажратиш жараёни. У турли босқичларни ўз ичига олади, маълумотларни олдиндан қайта ишлашдан бошлаб, матн тозаланади ва токенизатсия қилинади. Кейинчалик, матнни рақамли кўринишга айлантиришни ўз ичига олган хусусиятларни ажратиб олиш амалга оширилади.
Ва ниҳоят, янги ҳужжатларни автоматик равишда тўғри синфга тайинлаши мумкин бўлган таснифлагични ўргатиш учун ўзгартирилган маълумотларга машинани ўрганиш алгоритмлари қўлланилади (Ҳуанг ва бошқ., 2019). Бу жараён спамни филтрлаш, ҳис-туйғуларни таҳлил қилиш ва маълумотларни қидириш каби кўплаб иловаларда жуда муҳим, чунки у катта ҳажмдаги матн маълумотларини тартибга солиш ва тушунишга ёрдам беради (Тан ва бошқ., 2014). Умуман олганда, ҳужжатларни таснифлаш турли соҳаларда маълумотларни самарали бошқариш ва таҳлил қилиш учун зарурдир.

2. Бошқариладиган таснифлаш алгоритмларига мисоллар


Ҳужжатларни таснифлашда кенг тарқалган бўлиб фойдаланиладиган назорат остидаги таснифлаш алгоритмларининг иккита мисоли - Суппорт Веcтор Мачинес (СВМ) ва Наиве Баес. СВМ кучли алгоритм бўлиб, ёрлиқли ўқув маълумотлари тўплами асосида ҳужжатларни турли синфларга ажратиш учун гиперпланни яратади (Бирд, Клеин, & Лопер, 2009). Бошқа томондан, Наиве Баес, эҳтимоллик алгоритми бўлиб, ҳужжатнинг маълум бир синфга тегишли бўлишининг шартли эҳтимоллигини унинг хусусиятларининг пайдо бўлишига қараб ҳисоблайди (Маннинг, Рагҳаван, & Счüтзе, 2008). Ушбу алгоритмлар турли хил матн таснифлаш вазифаларида кенг қўлланилган ва истиқболли натижаларни кўрсатди (Янг ва бошқ., 1999).

Download 155.33 Kb.

Do'stlaringiz bilan baham:
1   2   3   4   5   6   7   8   9   10




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling