Современная многоязычная лемматизация
Download 124.56 Kb.
|
Современная многоязычная лемматизация
Токенизация
Токен (англ. token) — объект, создающийся из лексемы в процессе лексического анализа(«токенизации», от англ. tokenizing). В прикладном программировании понятие токена и его лексема могут не различаться. Шаблон токена — формальное описание класса лексем, которые могут создать данный тип токена.
Тип (type) — это класс всех лексем, состоящих из одной и той же последовательности символов. Термин (term) — это (возможно, нормализованный) тип, включенный в словарь системы информационного поиска. Множество терминов индекса может полностью отличаться от лексем, которые, например, могут быть семантическими идентификаторами в иерархии, но на практике в современных системах информационного поиска они напрямую связаны с лексемами в документе.
Download 124.56 Kb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling