Современная многоязычная лемматизация
Сравнение с лемматизацией и стеммингом
Download 124.56 Kb.
|
Современная многоязычная лемматизация
Сравнение с лемматизацией и стеммингом
Чтобы минимизировать негативные последствия слишком агрессивного усечения слов стеммером, необходимо выполнять стемминг искомого ключевого слова, а затем сравнивать результат с выходом стеммера для каждого из слов в обрабатываемом тексте. Но даже в этом случае буду встречаться совпадения стемов для совершенно несвязанных слов.
Стеммер доступен в виде исходного кода на нескольких языках программирования, включая C, C# и PHP. Код стеммера создается автоматически по информации из словаря, загруженого в SQL базу данных. Таким образом, не требуется отдельно вручную задавать правила стемминга. Лемматизация правильно определила бы базовую форму «caring» и «care», в то время как стемминг отрезал бы «ing» и преобразовал ее в car. «Caring» -> Лемматизация -> «Care» «Caring» -> Стемминг -> «Car» Download 124.56 Kb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling