.NET/C# uporablja Tesseract za OCR prepoznavanje besedila za slike

Mala drhal · Objavljeno na 24. 04. 2025 09:20:01

Zahteve: Uporabite OCR tehnologijo za prepoznavanje slikovnega besedila; če vsebuje besedilo, bo backend sprva prestal pregled in dal prednost. Zahteve so razmeroma preproste.

Pregled:

.NET/C# uporablja FastDeploy za uvajanje OCR modelov za prepoznavanje besedila
https://www.itsvse.com/thread-10911-1-1.html

.NET Core kliče Baidu PaddleOCR za prepoznavanje slik in besedil
https://www.itsvse.com/thread-9590-1-1.html

Tesseract OCR

Tesseract je bil prvotno razvit med letoma 1985 in 1994 v HP Laboratories v Bristolu, Združeno kraljestvo, in HP v Greeleyju, Colorado, ZDA. Leta 1996 je bil Tesseract dodatno prilagojen za prenos na Windows sisteme, leta 1998 pa je bil delno C++izčrpan. Leta 2005 je HP naredil Tesseract odprtokoden. Razvijal ga je Google od leta 2006 do novembra 2018.

Tesseract 4 dodaja OCR pogon, ki temelji na nevronskih mrežah (LSTM), ki se osredotoča na prepoznavanje vrstic, vendar še vedno podpira Tesseract 3-jev starejši OCR pogon Tesseract, ki deluje z prepoznavanjem vzorcev znakov. Uporabite starejši način OCR pogona (--OEM 0) za omogočanje združljivosti s Tesseract 3. Zahteva tudi učne podatkovne datoteke, ki podpirajo starejše pogone, kot so datoteke iz tessdata repozitorija.

Naslov tesseracta:Prijava do hiperpovezave je vidna.
tessdata:Prijava do hiperpovezave je vidna.
Dokumentacija:Prijava do hiperpovezave je vidna.

C# imenuje Tesseract

Kar zadeva uporabo C# za klicanje Tesseracta, obstajata dve pogosto uporabljeni knjižnici: Tesseract in TesseractOCR, pri čemer je TesseractOCR osnovan na sekundarnem razvoju knjižnice Tesseract, koda obeh odprtokodnih knjižnic pa je dejansko podobna, razlika je v tem, da TesseractOCR kliče najnovejšo različico (5.5.0) .dll knjižnice dinamičnih povezav, zato je to priporočljivoTesseractOCR。

Tesseract koda:Prijava do hiperpovezave je vidna.
TesseractOCR koda:Prijava do hiperpovezave je vidna.

Najprej morate prenesti Chinese Simplified (chi_sim.traineddata) model. (izpuščeno)

Koda je naslednja:

Prijava je vidna.

Poišči posnetek zaslona z interneta za preizkus, originalna slika je naslednja:

Rezultati prepoznavanja OCR so naslednji:

(Konec)

[Vir] .NET/C# uporablja Tesseract za OCR prepoznavanje besedila za slike

Sorodne objave

Ogledi odsekov