Литература Введение Lucene Обзор


Download 219.91 Kb.
bet10/13
Sana19.04.2023
Hajmi219.91 Kb.
#1363803
TuriЛитература
1   ...   5   6   7   8   9   10   11   12   13
Bog'liq
1 sam top

1. обзор


Apache Lucene - это система полнотекстового поиска, которую можно использовать на разных языках программирования.
В этой статье мы попытаемся понять основные концепции библиотеки и создать простое приложение.

2. Maven Setup


Для начала давайте сначала добавим необходимые зависимости:


org.apache.lucene
lucene-core
7.1.0
Последнюю версию можно найтиhere.
Также для разбора поисковых запросов нам понадобятся:


org.apache.lucene
lucene-queryparser
7.1.0
Проверьте последнюю версиюhere.

3. Основные понятия

3.1. индексирование


Проще говоря, Lucene использует «инвертированную индексацию» данных -instead of mapping pages to keywords, it maps keywords to pages, как глоссарий в конце любой книги.
Это позволяет ускорить поиск ответов при поиске по индексу вместо прямого поиска по тексту.

3.2. документы


Здесь документ представляет собой набор полей, и каждое поле имеет значение, связанное с ним.
Индексы обычно состоят из одного или нескольких документов, а результаты поиска представляют собой наборы наиболее подходящих документов.
Это не всегда обычный текстовый документ, это также может быть таблица базы данных или коллекция.

3.3. поля


Документы могут иметь данные поля, где поле обычно является ключом, содержащим значение данных:
title: Goodness of Tea
body: Discussing goodness of drinking herbal tea...
Обратите внимание, что здесьtitle иbody - это поля, и их можно искать вместе или по отдельности.

3.4. Анализ


Анализ преобразует данный текст в более мелкие и точные единицы для удобства поиска.
Текст проходит через различные операции извлечения ключевых слов, удаления общих слов и знаков препинания, изменения слов в нижний регистр и т. Д.
Для этого есть несколько встроенных анализаторов:

  1. StandardAnalyzer - анализирует на основе базовой грамматики, удаляет стоп-слова, такие как «a», «an» и т.д. Также преобразует в нижний регистр

  2. SimpleAnalyzer - разбивает текст на безбуквенный символ и преобразует его в нижний регистр

  3. WhiteSpaceAnalyzer - разбивает текст по пробелам

Нам доступны и другие анализаторы, которые мы можем использовать и настраивать.

Download 219.91 Kb.

Do'stlaringiz bilan baham:
1   ...   5   6   7   8   9   10   11   12   13




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling