Введение в информационный поиск Introduction to Information Retrieval Лекция № 12 Исправление опечаток. Расстояние Левенштейна. Цель лекции. Рассмотрим алгоритмы обработки запросов с орфографическими ошибками. Исправление опечаток Проблема исправления опечаток (ошибок) в запросах имеет принципиальное отличие от обработки запросов с джокерами. Суть отличия состоит в том, что в случае опечатки нам неизвестно в каком месте термина находится опечатка: в начале, в конце или в середине. Поэтому в этом случае нельзя применить прямое и обратное двоичное дерево. Исправление опечаток В основе большинства алгоритмов исправления опечаток лежат два фундаментальных принципа. 1 Из всех альтернативных правильных способов написания искаженного запроса выбирается “ближайший”. Для этого необходимо понятие близости между двумя запросами. Меры близости рассмотрим в следующем разделе. 2. Если два правильно записанных запроса связаны (или почти связаны) друг с другом, то выбирается более распространенный вариант. Исправление опечаток Исправление ошибок предоставляются пользователю одним из следующих способов: 1 В ответ на запрос carot всегда возвращаются документы, содержащие слово carot, а также все возможные “исправленные” варианты этого слова, включая carrot и tarot. 2. Аналогично п.1, но только если слова carot нет в словаре. Исправление опечаток 3. Аналогично п.1, но только если в ответ на оригинальный запрос система вернула слишком мало документов (например, меньше пяти). 4. Если количество документов, возвращенных в ответ на запрос, меньше установленного порога, то поисковая система предлагает пользователю вариант исправления (spelling suggestion): это предложение состоит из исправленных терминов. Таким образом, поисковая система в ответ на запрос пользователя может спросить: “Вы имели в виду слово carrot?” Исправление опечаток
Do'stlaringiz bilan baham: |