Современная многоязычная лемматизация


Некоторые названия песен и хорошо известные отрывки стихотворений целиком состоят из стоп-слов (To be or not to be, Let it be, I don’t want to be, ...)


Download 124.56 Kb.
bet4/4
Sana13.10.2023
Hajmi124.56 Kb.
#1701214
1   2   3   4
Bog'liq
Современная многоязычная лемматизация

Некоторые названия песен и хорошо известные отрывки стихотворений целиком состоят из стоп-слов (To be or not to be, Let it be, I don’t want to be, ...).

  • Некоторые названия песен и хорошо известные отрывки стихотворений целиком состоят из стоп-слов (To be or not to be, Let it be, I don’t want to be, ...).
  • Цель стемминга и лемматизации — привести словоформы и производные формы слова к общей основной форме. Рассмотрим примеры. am, are, is ⇒ be car, cars, car’s, cars’ ⇒ car В результате может возникнуть следующее преобразование текста.
  • the boy’s cars are different colors ⇒ the boy car be different color

Сравнение трех алгоритмов морфологического поиска на конкретном примере

  • Пример. Such an analysis can reveal features that are not easily visible from the variations in the individual genes and can lead to a picture of expression that is more biologically transparent and accessible to interpretation.
  • Алгоритм Ловинса. Such an analysis can reve featur that ar not eas vis from th vari in th individu gen and can lead to a pictur of expres that is mor biolog transpar and acces to interpres.
  • Алгоритм Портера. Such an analysi can reveal featur that ar not easili visibl from the variat in the individu gene and can lead to a pictur of express that is more biolog transpar and access to interpret.
  • Алгоритм Пейса. Such an analysis can rev feat that are not easy vis from the vary in the individ gen and can lead to a pict of express that is mor biolog transp and access to interpret.

Пример в Python Токенизация по предложениям: Возьмем небольшой текст про настольную игру нарды:

Чтобы сделать токенизацию предложений с помощью NLTK, можно воспользоваться методом nltk.sent_tokenize

На выходе мы получим 3 отдельных предложения:

На выходе мы получим 3 отдельных предложения:

Спасибо за внимание!


Download 124.56 Kb.

Do'stlaringiz bilan baham:
1   2   3   4




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling