Современная многоязычная лемматизация


Download 124.56 Kb.
bet3/4
Sana13.10.2023
Hajmi124.56 Kb.
#1701214
1   2   3   4
Bog'liq
Современная многоязычная лемматизация

Токенизация

  • Токенизация — это разбиение текста на более мелкие части, токены. К токенам относятся как слова, так и знаки пунктуации. Достаточно часто стоит задача представить текст в виде массива значимых слов. Тогда после токенизации необходимо произвести чистку на предмет знаков пунктуации и не значимых слов (например предлогов). 
  • Токен (англ. token) — объект, создающийся из лексемы в процессе лексического анализа

    («токенизации», от англ. tokenizing). В прикладном программировании понятие токена и его лексема могут не различаться. Шаблон токена — формальное описание класса лексем, которые могут создать данный тип токена.


Примеры

тип токена

примеры лексем

описание

num

257

число

id

Ident951

идентификатор

relop

<=

операция отношения

string

«Cимвол»

строчная постоянная

Тип (type) — это класс всех лексем, состоящих из одной и той же последовательности символов. Термин (term) — это (возможно, нормализованный) тип, включенный в словарь системы информационного поиска. Множество терминов индекса может полностью отличаться от лексем, которые, например, могут быть семантическими идентификаторами в иерархии, но на практике в современных системах информационного поиска они напрямую связаны с лексемами в документе.

  • Тип (type) — это класс всех лексем, состоящих из одной и той же последовательности символов. Термин (term) — это (возможно, нормализованный) тип, включенный в словарь системы информационного поиска. Множество терминов индекса может полностью отличаться от лексем, которые, например, могут быть семантическими идентификаторами в иерархии, но на практике в современных системах информационного поиска они напрямую связаны с лексемами в документе.
  • Иногда некоторые очень распространенные слова, не представляющие ценности для удовлетворения информационных потребностей пользователей, вообще исключаются из лексикона. Они называются стоп-словами (stop-words).

Download 124.56 Kb.

Do'stlaringiz bilan baham:
1   2   3   4




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling