Современная многоязычная лемматизация


Сравнение с лемматизацией и стеммингом


Download 124.56 Kb.
bet2/4
Sana13.10.2023
Hajmi124.56 Kb.
#1701214
1   2   3   4
Bog'liq
Современная многоязычная лемматизация

Сравнение с лемматизацией и стеммингом

  • Основная проблема, возникающая при использовании стеммера - это обработка слов, которые при образовании разных грамматических форм меняют не только окончание, но и основу слова. Напримерсуществительное кошка в винительном и родительном падеже множественного числа имеет форму кошек. Из-за таких беглых гласных стеммер должен либо игнорировать подобные формы, усекая кошки до кошк и теряя часть форм слова, либо усекать слово до безусловно не изменяющейся основы, получая кош, что впоследствии может привести к нерелевантным сопоставлениям с кошмаром.
  • Алгоритм стемминга, доступный на странице онлайн-словаря, идет именно вторым путем. Таким образом, предложение:
  • Проверь еду у кошек
  • после стемминга преобразуется в Провер е у кош

Чтобы минимизировать негативные последствия слишком агрессивного усечения слов стеммером, необходимо выполнять стемминг искомого ключевого слова, а затем сравнивать результат с выходом стеммера для каждого из слов в обрабатываемом тексте. Но даже в этом случае буду встречаться совпадения стемов для совершенно несвязанных слов.

  • Чтобы минимизировать негативные последствия слишком агрессивного усечения слов стеммером, необходимо выполнять стемминг искомого ключевого слова, а затем сравнивать результат с выходом стеммера для каждого из слов в обрабатываемом тексте. Но даже в этом случае буду встречаться совпадения стемов для совершенно несвязанных слов.
  • Достоинство стеммера - отсутствие внешних зависимостей. Доступный на сайте стеммер представляет из себя одну dll, скомпилированную из C# файла. Кроме того, стеммер работает очень быстро.
  • Нормализация текста не использует стемминг, поэтому она лишена недостатков потери релевантности из-за особенностей русского словоизменения.

Стеммер доступен в виде исходного кода на нескольких языках программирования, включая C, C# и PHP. Код стеммера создается автоматически по информации из словаря, загруженого в SQL базу данных. Таким образом, не требуется отдельно вручную задавать правила стемминга.
Лемматизация правильно определила бы базовую форму «caring» и «care», в то время как стемминг отрезал бы «ing» и преобразовал ее в car.
«Caring» -> Лемматизация -> «Care» «Caring» -> Стемминг -> «Car»

Download 124.56 Kb.

Do'stlaringiz bilan baham:
1   2   3   4




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling