Denne artikkelen er en speilartikkel om maskinoversettelse, vennligst klikk her for å hoppe til originalartikkelen.

Utsikt: 760|Svare: 0

[Kilde] .NET/C# bruker Tesseract til OCR-tekstgjenkjenning for bilder

[Kopier lenke]
Publisert 24.04.2025 09:20:01 | | | |
Krav: Bruk OCR-teknologi for å gjenkjenne bildetekst; hvis det inneholder noe tekst, vil backend først bestå screeningen og gi prioritet. Kravene er relativt enkle.

Anmeldelse:

.NET/C# bruker FastDeploy for å distribuere OCR-modeller som gjenkjenner tekst
https://www.itsvse.com/thread-10911-1-1.html

.NET Core kaller Baidu PaddleOCR for å gjenkjenne bilder og tekster
https://www.itsvse.com/thread-9590-1-1.html

Tesserakt OCR

Tesseract ble opprinnelig utviklet mellom 1985 og 1994 ved HP Laboratories i Bristol, Storbritannia, og HP i Greeley, Colorado, USA. I 1996 ble Tesseract ytterligere modifisert for portering til Windows-systemer, og i 1998 ble det delvis C++-isert. I 2005 gjorde HP Tesseract åpen kildekode. Det ble utviklet av Google fra 2006 til november 2018.

Tesseract 4 legger til en Neural Network (LSTM)-basert OCR-motor som fokuserer på linjegjenkjenning, men støtter fortsatt Tesseract 3s gamle Tesseract OCR-motor, som fungerer ved å gjenkjenne tegnmønstre. Bruk den eldre OCR-motormodusen (--OEM 0) for å aktivere kompatibilitet med Tesseract 3. Det krever også treningsdatafiler som støtter eldre motorer, som filer fra tessdata-arkivet.

Tesserakt-adresse:Innloggingen med hyperkoblingen er synlig.
TESSDATA:Innloggingen med hyperkoblingen er synlig.
Dokumentasjon:Innloggingen med hyperkoblingen er synlig.

C# kaller Tesseract

Når det gjelder bruk av C# for å kalle Tesseract, finnes det to ofte brukte biblioteker: Tesseract og TesseractOCR, hvor TesseractOCR er basert på Tesseract-bibliotekets sekundære utvikling, og koden til de to åpne kildekodebibliotekene er faktisk lik; forskjellen er at TesseractOCR kaller den nyeste versjonen (5.5.0) av det .dll dynamiske lenkebiblioteket, så det anbefalesTesseractOCR

Tesseraktkode:Innloggingen med hyperkoblingen er synlig.
TesseractOCR-kode:Innloggingen med hyperkoblingen er synlig.

Først må du laste ned den kinesiske forenklede (chi_sim.traineddata) modell. (utelatt)

Koden er som følger:


Finn et skjermbilde fra Internett for å teste, det originale bildet er som følger:



OCR-gjenkjenningsresultatene er som følger:



(Slutt)




Foregående:.NET/C#-fil for å lage en hard lenke
Neste:Akselerer scikit-learn maskinlæringsbiblioteket med sklearnex
Ansvarsfraskrivelse:
All programvare, programmeringsmateriell eller artikler publisert av Code Farmer Network er kun for lærings- og forskningsformål; Innholdet ovenfor skal ikke brukes til kommersielle eller ulovlige formål, ellers skal brukerne bære alle konsekvenser. Informasjonen på dette nettstedet kommer fra Internett, og opphavsrettstvister har ingenting med dette nettstedet å gjøre. Du må fullstendig slette innholdet ovenfor fra datamaskinen din innen 24 timer etter nedlasting. Hvis du liker programmet, vennligst støtt ekte programvare, kjøp registrering, og få bedre ekte tjenester. Hvis det foreligger noen krenkelse, vennligst kontakt oss på e-post.

Mail To:help@itsvse.com