Tämä artikkeli on konekäännöksen peiliartikkeli, klikkaa tästä siirtyäksesi alkuperäiseen artikkeliin.

Näkymä: 11050|Vastaus: 1

Opas elasticsearch-analysis-ik:n asentamiseen elasticsearch-6.5.2:een

[Kopioi linkki]
Julkaistu 13.12.2018 10.21.21 | | | |
Elasticsearchin virallinen oletussanojen segmentointilisäosa ei ole ihanteellinen kiinalaiseen sanasegmentointiin. Esimerkiksi otan nyt konkreettisen esimerkin osoittaakseni, miksi ES:n virallisen verkkosivuston tarjoama sanasegmentointilisäosa ei ole tehokas kiinalaisessa sanasegmentoinnissa.
Viitedokumentaatio:

https://www.elastic.co/guide/en/ ... ting_analyzers.html
https://www.elastic.co/guide/en/ ... ndices-analyze.html


Lähetämme analyysirajapinnalle datan seuraavasti:

http://ip:9200/_analyze POST请求

{
  "analysaattori": "standardi",
  "teksti": "Arkkitehtihttp://www.itsvse.com, kaunis"
}


Jos käytät Elasticsearchia suoraan, kohtaat varmasti noloja ongelmia kiinalaisen sisällön hauissa.Kiinalaiset sanat jaetaan kiinalaisiin merkkeihin yksi kerrallaanKun käytetään Kibanaa piirtämiseen, ryhmittele termin mukaan, ja siksi kiinalainen merkki jaetaan ryhmään.

Onneksi on olemassa kaksi kiinalaista sanasegmentointilisäosaa, jotka on kirjoittanut medcl (yksi varhaisimmista henkilöistä, jotka opiskelivat ES:ää Kiinassa), toinen on ik ja toinen mmseg, ja seuraava esittelee vain ik:n käytön.


IK Analysis -lisäosa integroi Lucene IK -analysaattorin elasticsearchiin ja tukee mukautettuja sanakirjoja.

elasticsearch-analysis-ik -projektin osoite:https://github.com/medcl/elasticsearch-analysis-ik

Asenna elasticsearch-analysis-ik

Ensiksi pysäytä Elasticsearchin käynnistyminen, JPS löytää prosessi-ID:n, ja tapa se kill -9 process ID:llä! (En kuitenkaan testannut sitä, mutta on turvallisempaa pysäyttää ja asentaa)

Asennus elasticsearch-pluginilla (tuettu versiosta v5.5.1):



Huomautus: Korvaa versio 6.3.0 omalla elasticsearch-versiollasi

Asensin sen palvelimelleniElasticsearch on versio 6.5.2versio, joten komento on seuraava:




Asennusvirhe on seuraava:

Poikkeus säikeessä "pää" java.nio.file.FileSystemException: /usr/local/elasticsearch-6.5.2/config/analysis-ik: Toiminto ei sallittu


Elasticsearch-asennuslaajennus täytyy ajaa root-muodossaKäytämme su rootia vaihtaaksemme järjestelmänvalvojan tilaan, suorittaaksemme asennuksen uudelleen, ja se onnistuu, kuten alla olevassa kuvassa näkyy:



Testaamme lähettämällä viestipyynnön uudelleen käyttöliittymään, ja julkaisun sisältö on seuraava:

{
  "analysaattori": "ik_max_word",
  "teksti": "Arkkitehtihttp://www.itsvse.com, kaunis"
}


Huomasin ymmärtäväni semantiikkamme normaalisti ja jaoin "arkkitehti", "kaunis" ja "arkkitehtuuri" yhteen sanaan.

Mikä on ero ik_max_word:n ja ik_smart:n välillä?

ik_max_word: Teksti jaetaan yksityiskohtiin, kuten "Kiinan kansantasavallan kansallislaulu" jaetaan muotoon "Kiinan kansantasavalta, kiinalaiset kansat, Kiina, Kiina, kansantasavalta, kansa, tasavalta, tasavalta, hän, kansallislaulu", ja kaikki mahdolliset yhdistelmät käydään läpi;

ik_smart: Se tekee karkeimman tason jakoja, kuten jakaa "Kiinan kansantasavallan kansallislaulun" "Kiinan kansantasavallan kansallislauluksi".





Edellinen:Asenna elasticsearch-6.5.2 elasticsearch-head -lisäosa
Seuraava:NetEase News APP, Himalayan APP -datarajapinta
 Vuokraisäntä| Julkaistu 13.12.2018 11.04.13 |
Vastuuvapauslauseke:
Kaikki Code Farmer Networkin julkaisemat ohjelmistot, ohjelmamateriaalit tai artikkelit ovat tarkoitettu vain oppimis- ja tutkimustarkoituksiin; Yllä mainittua sisältöä ei saa käyttää kaupallisiin tai laittomiin tarkoituksiin, muuten käyttäjät joutuvat kantamaan kaikki seuraukset. Tämän sivuston tiedot ovat peräisin internetistä, eikä tekijänoikeuskiistat liity tähän sivustoon. Sinun tulee poistaa yllä oleva sisältö kokonaan tietokoneeltasi 24 tunnin kuluessa lataamisesta. Jos pidät ohjelmasta, tue aitoa ohjelmistoa, osta rekisteröityminen ja hanki parempia aitoja palveluita. Jos rikkomuksia ilmenee, ota meihin yhteyttä sähköpostitse.

Mail To:help@itsvse.com