Cet article est un article miroir de traduction automatique, veuillez cliquer ici pour accéder à l’article original.

Vue: 760|Répondre: 0

[Source] .NET/C# utilise la reconnaissance de texte Tesseract vers OCR pour les images

[Copié le lien]
Publié le 24-04-2025 09:20:01 | | | |
Exigences : Utilisez la technologie OCR pour reconnaître le texte image ; s’il contient du texte, le backend passera initialement le filtrage et donnera la priorité. Les exigences sont relativement simples.

Révision:

.NET/C# utilise FastDeploy pour déployer des modèles OCR afin de reconnaître le texte
https://www.itsvse.com/thread-10911-1-1.html

.NET Core appelle Baidu PaddleOCR pour reconnaître les images et les textes
https://www.itsvse.com/thread-9590-1-1.html

Tesseract OCR

Le Tesseract a été initialement développé entre 1985 et 1994 aux laboratoires HP à Bristol, au Royaume-Uni, et chez HP à Greeley, Colorado, États-Unis. En 1996, Tesseract a été modifié pour être porté sur les systèmes Windows, et en 1998, il a été partiellement C++isé. En 2005, HP a rendu Tesseract open source. Il a été développé par Google de 2006 à novembre 2018.

Tesseract 4 ajoute un moteur OCR basé sur un réseau de neurones (LSTM) qui se concentre sur la reconnaissance des lignes, mais prend toujours en charge le moteur OCR Tesseract hérité de Tesseract 3, qui fonctionne en reconnaissant les motifs de caractères. Utilisez le mode moteur OCR hérité (--oem 0) pour activer la compatibilité avec Tesseract 3. Il nécessite également des fichiers de données d’entraînement qui prennent en charge les anciens moteurs, comme les fichiers du dépôt tessdata.

Adresse Tesseract :La connexion hyperlientérée est visible.
Tessdata :La connexion hyperlientérée est visible.
Documentation:La connexion hyperlientérée est visible.

C# appelle Tesseract

Concernant l’utilisation de C# pour appeler Tesseract, il existe deux bibliothèques couramment utilisées : Tesseract et TesseractOCR, dont TesseractOCR est basé sur le développement secondaire de la bibliothèque Tesseract, et le code des deux bibliothèques open source est en réalité similaire ; la différence est que TesseractOCR appelle la dernière version (5.5.0) de la bibliothèque de liens dynamiques .dll, donc il est recommandéTesseractOCR

Code Tesseract :La connexion hyperlientérée est visible.
Code TesseractOCR :La connexion hyperlientérée est visible.

Tout d’abord, vous devez télécharger le chinois simplifié (chi_sim.traineddata). (omis)

Le code est le suivant :


Trouvez une capture d’écran sur Internet pour tester, l’image originale est la suivante :



Les résultats de reconnaissance OCR sont les suivants :



(Fin)




Précédent:.NET/C# pour créer un lien dur
Prochain:Accélérez la bibliothèque d’apprentissage automatique scikit-learn avec sklearnex
Démenti:
Tous les logiciels, supports de programmation ou articles publiés par Code Farmer Network sont uniquement destinés à l’apprentissage et à la recherche ; Le contenu ci-dessus ne doit pas être utilisé à des fins commerciales ou illégales, sinon les utilisateurs assumeront toutes les conséquences. Les informations sur ce site proviennent d’Internet, et les litiges de droits d’auteur n’ont rien à voir avec ce site. Vous devez supprimer complètement le contenu ci-dessus de votre ordinateur dans les 24 heures suivant le téléchargement. Si vous aimez le programme, merci de soutenir un logiciel authentique, d’acheter l’immatriculation et d’obtenir de meilleurs services authentiques. En cas d’infraction, veuillez nous contacter par e-mail.

Mail To:help@itsvse.com