Zahteve: Uporabite OCR tehnologijo za prepoznavanje slikovnega besedila; če vsebuje besedilo, bo backend sprva prestal pregled in dal prednost. Zahteve so razmeroma preproste.
Pregled:
Tesseract OCR
Tesseract je bil prvotno razvit med letoma 1985 in 1994 v HP Laboratories v Bristolu, Združeno kraljestvo, in HP v Greeleyju, Colorado, ZDA. Leta 1996 je bil Tesseract dodatno prilagojen za prenos na Windows sisteme, leta 1998 pa je bil delno C++izčrpan. Leta 2005 je HP naredil Tesseract odprtokoden. Razvijal ga je Google od leta 2006 do novembra 2018.
Tesseract 4 dodaja OCR pogon, ki temelji na nevronskih mrežah (LSTM), ki se osredotoča na prepoznavanje vrstic, vendar še vedno podpira Tesseract 3-jev starejši OCR pogon Tesseract, ki deluje z prepoznavanjem vzorcev znakov. Uporabite starejši način OCR pogona (--OEM 0) za omogočanje združljivosti s Tesseract 3. Zahteva tudi učne podatkovne datoteke, ki podpirajo starejše pogone, kot so datoteke iz tessdata repozitorija.
Naslov tesseracta:Prijava do hiperpovezave je vidna. tessdata:Prijava do hiperpovezave je vidna. Dokumentacija:Prijava do hiperpovezave je vidna.
C# imenuje Tesseract
Kar zadeva uporabo C# za klicanje Tesseracta, obstajata dve pogosto uporabljeni knjižnici: Tesseract in TesseractOCR, pri čemer je TesseractOCR osnovan na sekundarnem razvoju knjižnice Tesseract, koda obeh odprtokodnih knjižnic pa je dejansko podobna, razlika je v tem, da TesseractOCR kliče najnovejšo različico (5.5.0) .dll knjižnice dinamičnih povezav, zato je to priporočljivoTesseractOCR。
Tesseract koda:Prijava do hiperpovezave je vidna. TesseractOCR koda:Prijava do hiperpovezave je vidna.
Najprej morate prenesti Chinese Simplified (chi_sim.traineddata) model. (izpuščeno)
Koda je naslednja:
Poišči posnetek zaslona z interneta za preizkus, originalna slika je naslednja:
Rezultati prepoznavanja OCR so naslednji:
(Konec) |