В информационный поиск Introduction to Information Retrieval


Download 84.26 Kb.
bet1/3
Sana19.06.2023
Hajmi84.26 Kb.
#1623255
TuriЛекция
  1   2   3
Bog'liq
Маъруза 12

Введение в информационный поиск Introduction to Information Retrieval

Лекция № 12

Исправление опечаток. Расстояние Левенштейна.

Цель лекции.

Рассмотрим алгоритмы обработки запросов с орфографическими ошибками.

Исправление опечаток

Проблема исправления опечаток (ошибок) в запросах имеет принципиальное отличие от обработки запросов с джокерами.

Суть отличия состоит в том, что в случае опечатки нам неизвестно в каком месте термина находится опечатка: в начале, в конце или в середине.

Поэтому в этом случае нельзя применить прямое и обратное двоичное дерево.

Исправление опечаток

В основе большинства алгоритмов исправления опечаток лежат два фундаментальных принципа.

1 Из всех альтернативных правильных способов написания искаженного запроса выбирается “ближайший”. Для этого необходимо понятие близости между двумя запросами. Меры близости рассмотрим в следующем разделе.

2. Если два правильно записанных запроса связаны (или почти связаны) друг с другом, то выбирается более распространенный вариант.

Исправление опечаток

Исправление ошибок предоставляются пользователю одним из следующих способов:

1 В ответ на запрос carot всегда возвращаются документы, содержащие слово carot, а также все возможные “исправленные” варианты этого слова, включая carrot и tarot.

2. Аналогично п.1, но только если слова carot нет в словаре.

Исправление опечаток

3. Аналогично п.1, но только если в ответ на оригинальный запрос система вернула слишком мало документов (например, меньше пяти).

4. Если количество документов, возвращенных в ответ на запрос, меньше установленного порога, то поисковая система предлагает пользователю вариант исправления (spelling suggestion): это предложение состоит из исправленных терминов. Таким образом, поисковая система в ответ на запрос пользователя может спросить: “Вы имели в виду слово carrot?”

Исправление опечаток


Download 84.26 Kb.

Do'stlaringiz bilan baham:
  1   2   3




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling