.NET/C# utilizza il riconoscimento del testo da Tesseract a OCR per le immagini

Piccola feccia · Pubblicato su 24/04/2025 09:20:01

Requisiti: Utilizzare la tecnologia OCR per riconoscere il testo dell'immagine; se contiene del testo, il backend supererà inizialmente lo screening e darà la priorità. I requisiti sono relativamente semplici.

Recensione:

.NET/C# utilizza FastDeploy per distribuire modelli OCR per riconoscere il testo
https://www.itsvse.com/thread-10911-1-1.html

.NET Core chiama Baidu PaddleOCR per riconoscere immagini e testi
https://www.itsvse.com/thread-9590-1-1.html

Tesseract OCR

Il tesseract è stato originariamente sviluppato tra il 1985 e il 1994 presso HP Laboratories a Bristol, Regno Unito, e HP a Greeley, Colorado, USA. Nel 1996, Tesseract fu ulteriormente modificato per il porting su sistemi Windows, e nel 1998 fu parzialmente C++izzato. Nel 2005, HP ha reso Tesseract open source. È stato sviluppato da Google dal 2006 a novembre 2018.

Tesseract 4 aggiunge un motore OCR basato su reti neurali (LSTM) che si concentra sul riconoscimento delle linee, ma supporta comunque il motore OCR legacy Tesseract 3, che funziona riconoscendo i pattern dei caratteri. Usa la modalità motore OCR legacy (--oem 0) per abilitare la compatibilità con Tesseract 3. Richiede inoltre file di dati di addestramento che supportino motori più vecchi, come i file del repository tessdata.

Discorso del Tesseract:Il login del link ipertestuale è visibile.
tessdata:Il login del link ipertestuale è visibile.
Documentazione:Il login del link ipertestuale è visibile.

C# chiama Tesseract

Per quanto riguarda l'uso di C# per chiamare Tesseract, ci sono due librerie comunemente usate: Tesseract e TesseractOCR, di cui TesseractOCR si basa sullo sviluppo secondario della libreria Tesseract, e il codice delle due librerie open source è in realtà simile; la differenza è che TesseractOCR chiama l'ultima versione (5.5.0) della libreria .dll dynamic link, quindi è raccomandatoTesseractOCR。

Codice Tesseract:Il login del link ipertestuale è visibile.
Codice TesseractOCR:Il login del link ipertestuale è visibile.

Per prima cosa, devi scaricare il cinese semplificato (chi_sim.traineddata) modello. (omesso)

Il codice è il seguente:

L'accesso è visibile.

Trova uno screenshot su Internet per testarlo, l'immagine originale è la seguente:

I risultati del riconoscimento OCR sono i seguenti:

(Fine)

[Fonte] .NET/C# utilizza il riconoscimento del testo da Tesseract a OCR per le immagini

Post correlati

Sezioni visualizzate