Introduzione alla configurazione delle evidenziazioni di ricerca di Elasticsearch

Piccola feccia · Pubblicato su 14/02/2021 11:43:47

Evidenziatori
Nella vita quotidiana, quando usiamo strumenti di ricerca per cercare di interrogare alcune informazioni, spesso vediamo che i campi nel set di risultati restituiti che corrispondono alle nostre condizioni di query sono contrassegnati con colori speciali, che sono l'evidenziazione dei risultati. Evidenziando dove gli utenti possono chiaramente trovare le corrispondenze delle query,

ES utilizza i punti evidenziati per evidenziare uno o più campi nei risultati di ricerca.

.NET/C# Usa il debug di Elasticsearch per visualizzare le informazioni di richieste e risposte
https://www.itsvse.com/thread-9561-1-1.html

Parametri di evidenziazione

parametro	illustrare
boundary_chars	Una stringa contenente ogni carattere di bordo. Il predefinito è ,! ?\\n.
boundary_max_scan	La distanza dal carattere di confine di scansione. Il valore predefinito è 20.
boundary_scanner	Specifica come dividere i frammenti evidenziati, che possono essere usati in tre modi: carattaggi, frase o parola.
boundary_scanner_locale	Impostazioni di localizzazione per la ricerca e determinazione dei confini delle parole, questo parametro è sotto forma di tag linguistici ("en-US", "fr-FR", "ja-JP")
Codificatore	Indica che lo snippet dovrebbe essere codificato in HTML: default (unencoded) oppure HTML (HTML - sfuggi testo a frammento e poi inserisci l'evidenziata)
Campi	Specifica i campi da evidenziare per recuperare. I campi possono essere specificati usando i jolly. Ad esempio, puoi specificare comment_* per ottenere l'evidenziazione di tutti i campi di testo e parole chiave che iniziano con comment_.
force_source	Evidenziate secondo la fonte. Il valore predefinito è falso.
Frammentatore	Specifica come il testo deve essere suddiviso nel frammento evidenziato: supporta i parametri simple o span.
fragment_offset	Controlla lo spazio bianco che vuoi iniziare a evidenziare. Funziona solo quando si usa l'evidenziatore FVH.
fragment_size	La dimensione del segmento evidenziato nel carattere. Il valore predefinito è 100.
highlight_query	Evidenzia le corrispondenze per query diverse da quella di ricerca. Questo è particolarmente utile quando si usano le query di rescoding, poiché questi problemi non vengono considerati di default.
matched_fields	Combina più risultati corrispondenti per evidenziare un singolo campo e per più campi che usano modi diversi per analizzare la stessa stringa. Tutti matched_fields devono avere term_vector impostato su with_positions_offsets, ma solo il campo in cui sono combinate le corrispondenze verrà caricato, quindi solo impostare lo store su sì avvantaggierà quel campo. Solo per l'evidenziatore FVH.
no_match_size	Se non c'è un frammento corrispondente da evidenziare, la quantità di testo che vuoi restituire dall'inizio del campo. Il valore predefinito è 0 (non restituisce nulla).
number_of_fragments	Il numero massimo di frammenti restituito. Se il numero di frammenti è impostato a 0, nessun frammento verrà restituito. Invece, evidenzia e restituisci l'intero contenuto del campo. Questa configurazione è comoda quando devi evidenziare testi brevi, come un titolo o un indirizzo, ma non è necessario segmentare. Se il number_of_fragments è 0, ignora il fragment_size. Il valore predefinito è 5.
Ordine	Quando impostato su punteggio, i frammenti evidenziati vengono ordinati per punteggio. Per impostazione predefinita, i frammenti verranno prodotti nell'ordine in cui appaiono nel campo (ordine:nessuno). Impostando questa opzione su punteggio verranno per primi i clip più rilevanti. Ogni evidenziato applica la propria logica per calcolare il punteggio di rilevanza.
phrase_limit	Controlla il numero di frasi corrispondenti considerate nel documento. Impedisce all'evidenziatore FVH di analizzare troppe frasi e consumare troppa memoria. Aumentare il limite aumenta i tempi di query e consuma più memoria. Il valore predefinito è 256.
pre_tags	Usato con post_tags per definire il markup HTML per evidenziare testo. Di default, il testo evidenziato è avvolto e segnato. Specificato come array di stringhe.
post_tags	Usato con pre_tags per definire il markup HTML per evidenziare testo. Di default, il testo evidenziato è avvolto e segnato. Specificato come array di stringhe.
require_field_match	Per impostazione predefinita, vengono evidenziati solo i campi che contengono corrispondenze delle query. Imposta require_field_match su false per evidenziare tutti i campi. Il valore predefinito è vero.
tags_schema	Impostato su stile usando la modalità markup integrata.
digitare	Modalità highlighting utilizzata: Unificata, Semplice o FVH. Il predefinito è unificato.

Elasticsearch supporta tre evidenziatori: unificato, semplice e fvh (fast vector highlighter).Il predefinito è unificato。 Puoi specificare il tipo di evidenziatore da usare per ogni campo.

(1) Evidenziatore unificato
Unified Highlighting utilizza Lucene Unified Marker. Questo evidenziatore scompone il testo in frasi e utilizza l'algoritmo BM25 per valutare singole frasi come se fossero documenti di un'antologia. Supporta anche frasi accurate e molteplici evidenziazioni (fuzzy, prefisso, regex). Questo è l'evidenziatore predefinito.

(2) Evidenziatore semplice
L'evidenziatore semplice utilizza un evidenziatore Lucene standard. Cerca di comprendere l'importanza delle parole e qualsiasi criterio di posizionamento delle parole nelle query delle parole per riflettere la logica di corrispondenza delle query.

(3) Evidenziatore FVH
L'evidenziatore fvh utilizza l'evidenziatore Lucene Fast Vector. Questo evidenziatore può essere usato per campi in cui il term_vector è impostato per with_positions_offsets nella mappa.

Risorse:

Il login del link ipertestuale è visibile.
Il login del link ipertestuale è visibile.

Introduzione alla configurazione delle evidenziazioni di ricerca di Elasticsearch

Post correlati

Sezioni visualizzate