Современная многоязычная лемматизация


Download 124.56 Kb.
bet1/4
Sana13.10.2023
Hajmi124.56 Kb.
#1701214
  1   2   3   4
Bog'liq
Современная многоязычная лемматизация

Современная многоязычная лемматизация

Выполнила: Тешабоева Гульноз

Гр: 214-16

Лемматизация

  • Лемматизация - это процесс определения того, что является лемма(т. е. словарная форма) данного слова.
  • В компьютерной лингвистике лемматизация - это алгоритмический процесс определения леммы слова на основе его предполагаемого значения. В отличии от вытекающих , лемматизация зависит от правильного определения намеченной части речи и смысла слова в предложении, а также в более широком контексте , окружающая эту фразу, например, соседние предложения или даже весь документе. В результате разработка эффективных алгоритмов лемматизации остается открытой областью исследований.
  • В словаре лемма «идти» представляет собой изменяемые формы «идти», «идет», «идти», «пошел» и «ушел». Связь между измененной формой и ее леммой обычно обозначается угловой скобкой, например, «пошел» <«пошел»>.

Нормализация

  • Процесс нормализации, реализованный в грамматическом словаре, позволяет убрать из исходного текста грамматическую информацию (падежичисла, глагольные виды и времена, залоги причастий, род и так далее), оставляя смысловую составляющую.
  • Два других алгоритма - стемминг и лемматизация - пытаются достичь такого же эффекта, но глубина преобразования текста в них меньше. Другая сторона медали - более существенные затраты вычислительных ресурсов на выполнение всех стадий алгоритма глубокой нормализации.

Стемминг

  • Сте́мминг (англ. stemming — находить происхождение) — это процесс нахождения основы слова для заданного исходного слова. Основа слова не обязательно совпадает с морфологическим корнем слова.
  • Стемминг применяется в поисковых системах для расширения поискового запроса пользователя, является частью процесса нормализации текста.
  • Конкретный способ решения задачи поиска основы слов называется алгоритм стемминга, а конкретная реализация — стеммер.
  • Стемминг - отсечение от слова окончаний и суффиксов, чтобы оставшаяся часть, называемая stem, была одинаковой для всех грамматических форм слова. Разумеется в таком виде стеммер может работать только с языками, которые реализуют словоизменение через аффиксы. Примерами таких языков являются русский и английский.

Download 124.56 Kb.

Do'stlaringiz bilan baham:
  1   2   3   4




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling