Литература Введение Lucene Обзор
Download 219.91 Kb.
|
1 sam top
- Bu sahifa navigatsiya:
- 2. Maven Setup
- 3. Основные понятия
- 3.2. документы
- 3.3. поля
- 3.4. Анализ
1. обзорApache Lucene - это система полнотекстового поиска, которую можно использовать на разных языках программирования. В этой статье мы попытаемся понять основные концепции библиотеки и создать простое приложение. 2. Maven SetupДля начала давайте сначала добавим необходимые зависимости: org.apache.lucene lucene-core 7.1.0 Последнюю версию можно найтиhere. Также для разбора поисковых запросов нам понадобятся: org.apache.lucene lucene-queryparser 7.1.0 Проверьте последнюю версиюhere. 3. Основные понятия3.1. индексированиеПроще говоря, Lucene использует «инвертированную индексацию» данных -instead of mapping pages to keywords, it maps keywords to pages, как глоссарий в конце любой книги. Это позволяет ускорить поиск ответов при поиске по индексу вместо прямого поиска по тексту. 3.2. документыЗдесь документ представляет собой набор полей, и каждое поле имеет значение, связанное с ним. Индексы обычно состоят из одного или нескольких документов, а результаты поиска представляют собой наборы наиболее подходящих документов. Это не всегда обычный текстовый документ, это также может быть таблица базы данных или коллекция. 3.3. поляДокументы могут иметь данные поля, где поле обычно является ключом, содержащим значение данных: title: Goodness of Tea body: Discussing goodness of drinking herbal tea... Обратите внимание, что здесьtitle иbody - это поля, и их можно искать вместе или по отдельности. 3.4. АнализАнализ преобразует данный текст в более мелкие и точные единицы для удобства поиска. Текст проходит через различные операции извлечения ключевых слов, удаления общих слов и знаков препинания, изменения слов в нижний регистр и т. Д. Для этого есть несколько встроенных анализаторов: StandardAnalyzer - анализирует на основе базовой грамматики, удаляет стоп-слова, такие как «a», «an» и т.д. Также преобразует в нижний регистр SimpleAnalyzer - разбивает текст на безбуквенный символ и преобразует его в нижний регистр WhiteSpaceAnalyzer - разбивает текст по пробелам Нам доступны и другие анализаторы, которые мы можем использовать и настраивать. Download 219.91 Kb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling