Exigences : Utilisez la technologie OCR pour reconnaître le texte image ; s’il contient du texte, le backend passera initialement le filtrage et donnera la priorité. Les exigences sont relativement simples.
Révision:
Tesseract OCR
Le Tesseract a été initialement développé entre 1985 et 1994 aux laboratoires HP à Bristol, au Royaume-Uni, et chez HP à Greeley, Colorado, États-Unis. En 1996, Tesseract a été modifié pour être porté sur les systèmes Windows, et en 1998, il a été partiellement C++isé. En 2005, HP a rendu Tesseract open source. Il a été développé par Google de 2006 à novembre 2018.
Tesseract 4 ajoute un moteur OCR basé sur un réseau de neurones (LSTM) qui se concentre sur la reconnaissance des lignes, mais prend toujours en charge le moteur OCR Tesseract hérité de Tesseract 3, qui fonctionne en reconnaissant les motifs de caractères. Utilisez le mode moteur OCR hérité (--oem 0) pour activer la compatibilité avec Tesseract 3. Il nécessite également des fichiers de données d’entraînement qui prennent en charge les anciens moteurs, comme les fichiers du dépôt tessdata.
Adresse Tesseract :La connexion hyperlientérée est visible. Tessdata :La connexion hyperlientérée est visible. Documentation:La connexion hyperlientérée est visible.
C# appelle Tesseract
Concernant l’utilisation de C# pour appeler Tesseract, il existe deux bibliothèques couramment utilisées : Tesseract et TesseractOCR, dont TesseractOCR est basé sur le développement secondaire de la bibliothèque Tesseract, et le code des deux bibliothèques open source est en réalité similaire ; la différence est que TesseractOCR appelle la dernière version (5.5.0) de la bibliothèque de liens dynamiques .dll, donc il est recommandéTesseractOCR。
Code Tesseract :La connexion hyperlientérée est visible. Code TesseractOCR :La connexion hyperlientérée est visible.
Tout d’abord, vous devez télécharger le chinois simplifié (chi_sim.traineddata). (omis)
Le code est le suivant :
Trouvez une capture d’écran sur Internet pour tester, l’image originale est la suivante :
Les résultats de reconnaissance OCR sont les suivants :
(Fin) |