Введение в конфигурацию выделений поиска в Elasticsearch.

Маленькая мразь · Опубликовано 14.02.2021 11:43:47

Выделенные моменты
В повседневной жизни, когда мы используем поисковые инструменты для запроса информации, мы часто видим, что поля в наборе результатов, соответствующие нашим условиям запроса, отмечены специальными цветами — выделением результата. Выделяя, где пользователи могут чётко найти совпадения запросов,

ES использует выделение для выделения одного или нескольких полей в результатах поиска.

.NET/C# Используйте отладку Elasticsearch для просмотра информации о запросах и ответах
https://www.itsvse.com/thread-9561-1-1.html

Параметры выделения

параметр	иллюстрировать
boundary_chars	Строка, содержащая каждый символ границы. По умолчанию ,! ?\\n.
boundary_max_scan	Расстояние до символа границы сканирования. По умолчанию — 20.
boundary_scanner	Укажите, как разделить выделенные фрагменты, которые можно использовать тремя способами: символы, предложение или слово.
boundary_scanner_locale	Настройки локализации для поиска и определения границ слов, этот параметр представлен в виде языковых тегов ("en-US", "fr-FR", "ja-JP")
Кодировщик	Указывает, что фрагмент должен быть закодирован в HTML: по умолчанию (незакодированный) или HTML (HTML — escape текста фрагмента с добавлением выделения)
Области	Указывает поля, которые нужно выделить для извлечения. Поля можно задавать с помощью джокеров. Например, вы можете указать comment_*, чтобы получить выделение всех текстовых и ключевых полей, начинающихся на comment_.
force_source	Выделяйте по источнику. Значение по умолчанию ложно.
фрагментатор	Указывает, как следует разделить текст в выделенном фрагменте: поддерживать параметры simple или span.
fragment_offset	Контролируйте белое пространство, которое хотите начать выделять. Работает только при использовании FVH Highlighter.
fragment_size	Размер сегмента, выделенного в символе. По умолчанию — 100.
highlight_query	Выделяйте совпадения для запросов, отличных от поискового запроса. Это особенно полезно при использовании запросов к переоценке, так как эти проблемы по умолчанию не учитываются.
matched_fields	Комбинируйте несколько результатов сопоставления для выделения одного поля и для нескольких полей, которые используют разные способы анализа одной и той же строки. Все matched_fields должны быть настроены term_vector на with_positions_offsets, но загружается только то поле, в которое объединяются матчи, так что только установка сохранения на «да» принесёт пользу этому полю. Только для FVH Highlighter.
no_match_size	Если нет соответствующего фрагмента для выделения, то объём текста, который вы хотите вернуть с начала поля. По умолчанию 0 (ничего не возвращает).
number_of_fragments	Максимальное количество возвращаемых фрагментов. Если количество фрагментов установлено в 0, ни один фрагмент не возвращается. Вместо этого выделяйте и возвращайте весь материал поля. Эта конфигурация удобна, когда нужно выделить короткий текст, например название или адрес, но сегментация не нужна. Если number_of_fragments равен 0, игнорируйте fragment_size. По умолчанию — 5.
Порядок	При установке балла выделенные фрагменты сортируются по очкам. По умолчанию фрагменты будут выводиться в том порядке, в котором они появляются в поле (order:none). Настройка этой опции на score сначала выведет наиболее релевантные клипы. Каждое выделение использует свою логику для расчёта оценки релевантности.
phrase_limit	Контролирует количество совпадающих фраз, рассматриваемых в документе. Это предотвращает анализ FVH Highlighter слишком большим количеством фраз и чрезмерное потребление памяти. Повышение лимита увеличивает время запроса и требует больше памяти. По умолчанию — 256.
pre_tags	Используется с post_tags для определения HTML-разметки для выделения текста. По умолчанию выделенный текст обёрнут и отмечен. Задаётся в виде строкового массива.
post_tags	Используется с pre_tags для определения HTML-разметки с целью выделения текста. По умолчанию выделенный текст обёрнут и отмечен. Задаётся в виде строкового массива.
require_field_match	По умолчанию выделяются только поля с совпадениями запросов. Установите require_field_match на false, чтобы выделить все поля. Значение по умолчанию верно.
tags_schema	Настройте стиль с помощью встроенного режима разметки.
тип	Используемый режим выделения: Unified, Plain или FVH. По умолчанию унифицировано.

Elasticsearch поддерживает три маркера: унифицированный, простой и fvh (быстрый векторный маркер).Стандарт унифицирован。 Вы можете выбрать тип маркера для каждого поля.

(1) Унифицированный маркер
Unified Highlighter использует Lucene Unified Highlighter. Этот маркер разбивает текст на предложения и использует алгоритм BM25, чтобы оценивать отдельные предложения так, будто они документы из антологии. Он также поддерживает точные фразы и многократное выделение (fuzzy, prefix, regex). Это стандартный маркер.

(2) Простой маркер
Обычный маркер использует стандартный маркер Lucene. Он пытается понять важность слова и любые критерии позиционирования слов в фразовых запросах, чтобы отразить логику сопоставления запросов.

(3) Маркер FVH
Маркер fvh использует маркер Lucene Fast Vector. Этот маркер можно использовать для полей, где term_vector установлен на with_positions_offsets на карте.

Ресурсы:

Вход по гиперссылке виден.
Вход по гиперссылке виден.

Введение в конфигурацию выделений поиска в Elasticsearch.

Связанные публикации

Просмотренные разделы