.NET/C# bruker Tesseract til OCR-tekstgjenkjenning for bilder

Lille skurk · Publisert på 24.04.2025 09:20:01

Krav: Bruk OCR-teknologi for å gjenkjenne bildetekst; hvis det inneholder noe tekst, vil backend først bestå screeningen og gi prioritet. Kravene er relativt enkle.

Anmeldelse:

.NET/C# bruker FastDeploy for å distribuere OCR-modeller som gjenkjenner tekst
https://www.itsvse.com/thread-10911-1-1.html

.NET Core kaller Baidu PaddleOCR for å gjenkjenne bilder og tekster
https://www.itsvse.com/thread-9590-1-1.html

Tesserakt OCR

Tesseract ble opprinnelig utviklet mellom 1985 og 1994 ved HP Laboratories i Bristol, Storbritannia, og HP i Greeley, Colorado, USA. I 1996 ble Tesseract ytterligere modifisert for portering til Windows-systemer, og i 1998 ble det delvis C++-isert. I 2005 gjorde HP Tesseract åpen kildekode. Det ble utviklet av Google fra 2006 til november 2018.

Tesseract 4 legger til en Neural Network (LSTM)-basert OCR-motor som fokuserer på linjegjenkjenning, men støtter fortsatt Tesseract 3s gamle Tesseract OCR-motor, som fungerer ved å gjenkjenne tegnmønstre. Bruk den eldre OCR-motormodusen (--OEM 0) for å aktivere kompatibilitet med Tesseract 3. Det krever også treningsdatafiler som støtter eldre motorer, som filer fra tessdata-arkivet.

Tesserakt-adresse:Innloggingen med hyperkoblingen er synlig.
TESSDATA:Innloggingen med hyperkoblingen er synlig.
Dokumentasjon:Innloggingen med hyperkoblingen er synlig.

C# kaller Tesseract

Når det gjelder bruk av C# for å kalle Tesseract, finnes det to ofte brukte biblioteker: Tesseract og TesseractOCR, hvor TesseractOCR er basert på Tesseract-bibliotekets sekundære utvikling, og koden til de to åpne kildekodebibliotekene er faktisk lik; forskjellen er at TesseractOCR kaller den nyeste versjonen (5.5.0) av det .dll dynamiske lenkebiblioteket, så det anbefalesTesseractOCR。

Tesseraktkode:Innloggingen med hyperkoblingen er synlig.
TesseractOCR-kode:Innloggingen med hyperkoblingen er synlig.

Først må du laste ned den kinesiske forenklede (chi_sim.traineddata) modell. (utelatt)

Koden er som følger:

Innlogging er synlig.

Finn et skjermbilde fra Internett for å teste, det originale bildet er som følger:

OCR-gjenkjenningsresultatene er som følger:

(Slutt)

[Kilde] .NET/C# bruker Tesseract til OCR-tekstgjenkjenning for bilder

Relaterte innlegg

Seksjoner sett