.NET/C# bruger Tesseract til OCR-tekstgenkendelse til billeder

Lille skarn · Opslået på 24/04/2025 09.20.01

Krav: Brug OCR-teknologi til at genkende billedtekst; hvis den indeholder noget tekst, vil backend først bestå screeningen og give prioritet. Kravene er relativt simple.

Anmeldelse:

.NET/C# bruger FastDeploy til at deploye OCR-modeller, der genkender tekst
https://www.itsvse.com/thread-10911-1-1.html

.NET Core kalder Baidu PaddleOCR for at genkende billeder og tekster
https://www.itsvse.com/thread-9590-1-1.html

Tesserakt OCR

Tesseract blev oprindeligt udviklet mellem 1985 og 1994 hos HP Laboratories i Bristol, Storbritannien, og HP i Greeley, Colorado, USA. I 1996 blev Tesseract yderligere modificeret til portering til Windows-systemer, og i 1998 blev det delvist C++-iseret. I 2005 gjorde HP Tesseract open source. Det blev udviklet af Google fra 2006 til november 2018.

Tesseract 4 tilføjer en Neural Network (LSTM)-baseret OCR-motor, der fokuserer på linjegenkendelse, men understøtter stadig Tesseract 3's ældre Tesseract OCR-motor, som fungerer ved at genkende tegnmønstre. Brug den gamle OCR-motortilstand (--OEM 0) for at muliggøre kompatibilitet med Tesseract 3. Det kræver også træningsdatafiler, der understøtter ældre motorer, såsom filer fra tessdata-arkivet.

Tesserakt-adresse:Hyperlink-login er synlig.
tessdata:Hyperlink-login er synlig.
Dokumentation:Hyperlink-login er synlig.

C# kalder Tesseract

Med hensyn til at bruge C# til at kalde Tesseract, er der to almindeligt anvendte biblioteker: Tesseract og TesseractOCR, hvoraf TesseractOCR er baseret på Tesseract-bibliotekets sekundære udvikling, og koden for de to open source-biblioteker er faktisk ens; forskellen er, at TesseractOCR kalder den nyeste version (5.5.0) af det .dll dynamiske linkbibliotek, så det anbefalesTesseractOCR。

Tesserakt-kode:Hyperlink-login er synlig.
TesseractOCR-kode:Hyperlink-login er synlig.

Først skal du downloade den kinesiske forenklede (chi_sim.traineddata) model. (udeladt)

Koden er som følger:

Login er synlig.

Find et screenshot fra internettet for at teste, det originale billede er som følger:

OCR-genkendelsesresultaterne er som følger:

(Slut)

[Kilde] .NET/C# bruger Tesseract til OCR-tekstgenkendelse til billeder

Relaterede indlæg

Afsnit set