Выполнила: Тешабоева Гульноз Гр: 214-16 Лемматизация - Лемматизация - это процесс определения того, что является лемма(т. е. словарная форма) данного слова.
- В компьютерной лингвистике лемматизация - это алгоритмический процесс определения леммы слова на основе его предполагаемого значения. В отличии от вытекающих , лемматизация зависит от правильного определения намеченной части речи и смысла слова в предложении, а также в более широком контексте , окружающая эту фразу, например, соседние предложения или даже весь документе. В результате разработка эффективных алгоритмов лемматизации остается открытой областью исследований.
- В словаре лемма «идти» представляет собой изменяемые формы «идти», «идет», «идти», «пошел» и «ушел». Связь между измененной формой и ее леммой обычно обозначается угловой скобкой, например, «пошел» <«пошел»>.
Нормализация - Процесс нормализации, реализованный в грамматическом словаре, позволяет убрать из исходного текста грамматическую информацию (падежи, числа, глагольные виды и времена, залоги причастий, род и так далее), оставляя смысловую составляющую.
- Два других алгоритма - стемминг и лемматизация - пытаются достичь такого же эффекта, но глубина преобразования текста в них меньше. Другая сторона медали - более существенные затраты вычислительных ресурсов на выполнение всех стадий алгоритма глубокой нормализации.
Стемминг - Сте́мминг (англ. stemming — находить происхождение) — это процесс нахождения основы слова для заданного исходного слова. Основа слова не обязательно совпадает с морфологическим корнем слова.
- Стемминг применяется в поисковых системах для расширения поискового запроса пользователя, является частью процесса нормализации текста.
- Конкретный способ решения задачи поиска основы слов называется алгоритм стемминга, а конкретная реализация — стеммер.
- Стемминг - отсечение от слова окончаний и суффиксов, чтобы оставшаяся часть, называемая stem, была одинаковой для всех грамматических форм слова. Разумеется в таком виде стеммер может работать только с языками, которые реализуют словоизменение через аффиксы. Примерами таких языков являются русский и английский.
Do'stlaringiz bilan baham: |