Ҳужжатларни таснифлаш (классификацияси) ҳақида умумий тушунча


Б. Назорат қилинмаган тасниф


Download 155.33 Kb.
bet4/10
Sana03.12.2023
Hajmi155.33 Kb.
#1799036
1   2   3   4   5   6   7   8   9   10
Bog'liq
Ҳужжатларни таснифлаш

Б. Назорат қилинмаган тасниф


ёрлиқли таълим маълумотларига таянмайдиган ҳужжатлар таснифида муқобил ёндашувдир. Ҳужжатларни мазмуни ёки бошқа хусусиятлари бўйича ўхшашлиги асосида кластерларга гуруҳлашни мақсад қилган. Назорат қилинмаган таснифлашнинг машҳур усулларидан бири бу К-воситалари кластерлаш бўлиб, у итератив равишда кластер ичидаги квадрат масофаларнинг йиғиндисини минималлаштириш орқали ҳужжатларни кластерларга тайинлайди. Яна бир ёндашув Яширин Диричлет Аллоcатион (ЛДА) бўлиб, ҳужжатлар яширин мавзулар асосида яратилишини назарда тутувчи ва ҳар бир ҳужжатга ушбу мавзулар бўйича тақсимотни тайинлайдиган эҳтимолий моделдир (Wу ва бошқ., 2008).
Ҳужжатларни таснифлашда турли усуллар, жумладан назорат остидаги ва назоратсиз ўрганиш усуллари қўлланилади. Назорат қилинадиган ўрганиш усуллари классификаторни этикетланган маълумотлар тўпламида ўқитишни талаб қилади, бу эрда ҳар бир ҳужжатга аллақачон тоифа берилган. Оммабоп назорат остидаги ўрганиш алгоритмлари орасида Наиве Баес, Суппорт Веcтор Мачинес (СВМ) ва Деcисион Треес мавжуд. Бундан фарқли ўлароқ, назоратсиз таълим ёндашувлари этикетли маълумотларни талаб қилмайди; балки улар ўз тоифалари ҳақида олдиндан маълумотга эга бўлмаган ҳолда ҳужжатларни ўхшашликлари асосида гуруҳлашади. Умумий назоратсиз ўрганиш усулларига К-воситалари кластерлаш ва яширин Диричлет тақсимоти (ЛДА) киради. Ушбу алгоритмлар ҳужжатларни таснифлаш вазифаларида кенг қўлланилган, бу катта ҳажмдаги матн маълумотларини самарали таснифлаш ва ташкил этишни осонлаштиради (Гали, 2019).

А. Хусусиятларни ажратиб олиш


Ҳужжатларни таснифлашнинг муҳим босқичи - бу ҳужжатлардан тегишли атрибутларни танлашни ўз ичига олган хусусиятларни ажратиб олиш бўлиб, уларнинг мазмунини самарали кўрсатиши мумкин. Умумий усуллар орасида сўзлар сумкаси, н-грамм ва атама частотасига тескари ҳужжат частотаси (ТФ-ИДФ) киради (Шен ва бошқ., 2018). Ушбу усуллар матнли маълумотларни рақамли хусусият векторларига айлантириш имконини беради, кейинчалик улар таснифлаш алгоритмлари учун кириш сифатида ишлатилиши мумкин. Ҳужжатлардан асосий маълумотларни олиш орқали хусусиятларни ажратиб олиш ўхшаш ҳужжатларни таққослаш ва таснифлашни осонлаштиради, бу таснифлаш жараёнининг аниқлиги ва самарадорлигига ҳисса қўшади (Сун ва бошқ., 2009).

Download 155.33 Kb.

Do'stlaringiz bilan baham:
1   2   3   4   5   6   7   8   9   10




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling