Questo articolo è un articolo speculare di traduzione automatica, clicca qui per saltare all'articolo originale.

Vista: 760|Risposta: 0

[Fonte] .NET/C# utilizza il riconoscimento del testo da Tesseract a OCR per le immagini

[Copiato link]
Pubblicato il 24-04-2025 09:20:01 | | | |
Requisiti: Utilizzare la tecnologia OCR per riconoscere il testo dell'immagine; se contiene del testo, il backend supererà inizialmente lo screening e darà la priorità. I requisiti sono relativamente semplici.

Recensione:

.NET/C# utilizza FastDeploy per distribuire modelli OCR per riconoscere il testo
https://www.itsvse.com/thread-10911-1-1.html

.NET Core chiama Baidu PaddleOCR per riconoscere immagini e testi
https://www.itsvse.com/thread-9590-1-1.html

Tesseract OCR

Il tesseract è stato originariamente sviluppato tra il 1985 e il 1994 presso HP Laboratories a Bristol, Regno Unito, e HP a Greeley, Colorado, USA. Nel 1996, Tesseract fu ulteriormente modificato per il porting su sistemi Windows, e nel 1998 fu parzialmente C++izzato. Nel 2005, HP ha reso Tesseract open source. È stato sviluppato da Google dal 2006 a novembre 2018.

Tesseract 4 aggiunge un motore OCR basato su reti neurali (LSTM) che si concentra sul riconoscimento delle linee, ma supporta comunque il motore OCR legacy Tesseract 3, che funziona riconoscendo i pattern dei caratteri. Usa la modalità motore OCR legacy (--oem 0) per abilitare la compatibilità con Tesseract 3. Richiede inoltre file di dati di addestramento che supportino motori più vecchi, come i file del repository tessdata.

Discorso del Tesseract:Il login del link ipertestuale è visibile.
tessdata:Il login del link ipertestuale è visibile.
Documentazione:Il login del link ipertestuale è visibile.

C# chiama Tesseract

Per quanto riguarda l'uso di C# per chiamare Tesseract, ci sono due librerie comunemente usate: Tesseract e TesseractOCR, di cui TesseractOCR si basa sullo sviluppo secondario della libreria Tesseract, e il codice delle due librerie open source è in realtà simile; la differenza è che TesseractOCR chiama l'ultima versione (5.5.0) della libreria .dll dynamic link, quindi è raccomandatoTesseractOCR

Codice Tesseract:Il login del link ipertestuale è visibile.
Codice TesseractOCR:Il login del link ipertestuale è visibile.

Per prima cosa, devi scaricare il cinese semplificato (chi_sim.traineddata) modello. (omesso)

Il codice è il seguente:


Trova uno screenshot su Internet per testarlo, l'immagine originale è la seguente:



I risultati del riconoscimento OCR sono i seguenti:



(Fine)




Precedente:.NET/C# per creare un collegamento fisso
Prossimo:Accelera la libreria di machine learning scikit-learn con sklearnex
Disconoscimento:
Tutto il software, i materiali di programmazione o gli articoli pubblicati dalla Code Farmer Network sono destinati esclusivamente all'apprendimento e alla ricerca; I contenuti sopra elencati non devono essere utilizzati per scopi commerciali o illegali, altrimenti gli utenti dovranno sostenere tutte le conseguenze. Le informazioni su questo sito provengono da Internet, e le controversie sul copyright non hanno nulla a che fare con questo sito. Devi eliminare completamente i contenuti sopra elencati dal tuo computer entro 24 ore dal download. Se ti piace il programma, ti preghiamo di supportare software autentico, acquistare la registrazione e ottenere servizi autentici migliori. In caso di violazione, vi preghiamo di contattarci via email.

Mail To:help@itsvse.com