Requisiti: Utilizzare la tecnologia OCR per riconoscere il testo dell'immagine; se contiene del testo, il backend supererà inizialmente lo screening e darà la priorità. I requisiti sono relativamente semplici.
Recensione:
Tesseract OCR
Il tesseract è stato originariamente sviluppato tra il 1985 e il 1994 presso HP Laboratories a Bristol, Regno Unito, e HP a Greeley, Colorado, USA. Nel 1996, Tesseract fu ulteriormente modificato per il porting su sistemi Windows, e nel 1998 fu parzialmente C++izzato. Nel 2005, HP ha reso Tesseract open source. È stato sviluppato da Google dal 2006 a novembre 2018.
Tesseract 4 aggiunge un motore OCR basato su reti neurali (LSTM) che si concentra sul riconoscimento delle linee, ma supporta comunque il motore OCR legacy Tesseract 3, che funziona riconoscendo i pattern dei caratteri. Usa la modalità motore OCR legacy (--oem 0) per abilitare la compatibilità con Tesseract 3. Richiede inoltre file di dati di addestramento che supportino motori più vecchi, come i file del repository tessdata.
Discorso del Tesseract:Il login del link ipertestuale è visibile. tessdata:Il login del link ipertestuale è visibile. Documentazione:Il login del link ipertestuale è visibile.
C# chiama Tesseract
Per quanto riguarda l'uso di C# per chiamare Tesseract, ci sono due librerie comunemente usate: Tesseract e TesseractOCR, di cui TesseractOCR si basa sullo sviluppo secondario della libreria Tesseract, e il codice delle due librerie open source è in realtà simile; la differenza è che TesseractOCR chiama l'ultima versione (5.5.0) della libreria .dll dynamic link, quindi è raccomandatoTesseractOCR。
Codice Tesseract:Il login del link ipertestuale è visibile. Codice TesseractOCR:Il login del link ipertestuale è visibile.
Per prima cosa, devi scaricare il cinese semplificato (chi_sim.traineddata) modello. (omesso)
Il codice è il seguente:
Trova uno screenshot su Internet per testarlo, l'immagine originale è la seguente:
I risultati del riconoscimento OCR sono i seguenti:
(Fine) |