Este artículo es un artículo espejo de traducción automática, por favor haga clic aquí para saltar al artículo original.

Vista: 760|Respuesta: 0

[Fuente] .NET/C# utiliza reconocimiento de texto de Tesseract a OCR para imágenes

[Copiar enlace]
Publicado el 24-4-2025 09:20:01 | | | |
Requisitos: Utiliza tecnología OCR para reconocer texto de imagen; si contiene algo de texto, el backend pasará inicialmente el filtro y dará prioridad. Los requisitos son relativamente sencillos.

Revisión:

.NET/C# utiliza FastDeploy para desplegar modelos OCR que reconocen texto
https://www.itsvse.com/thread-10911-1-1.html

.NET Core llama a Baidu PaddleOCR para reconocer imágenes y textos
https://www.itsvse.com/thread-9590-1-1.html

Tesseract OCR

Tesseract fue desarrollado originalmente entre 1985 y 1994 en HP Laboratories en Bristol, Reino Unido, y HP en Greeley, Colorado, EE. UU. En 1996, Tesseract fue modificado aún más para su portabilidad a sistemas Windows, y en 1998 fue parcialmente C++izado. En 2005, HP hizo Tesseract de código abierto. Fue desarrollado por Google desde 2006 hasta noviembre de 2018.

Tesseract 4 añade un motor OCR basado en Redes Neuronales (LSTM) que se centra en el reconocimiento de líneas, pero que sigue soportando el motor OCR heredado Tesseract 3, que funciona reconociendo patrones de caracteres. Utiliza el modo de motor OCR heredado (--oem 0) para habilitar la compatibilidad con Tesseract 3. También requiere archivos de datos de entrenamiento que soporten motores antiguos, como los archivos del repositorio tessdata.

Dirección del Tesseract:El inicio de sesión del hipervínculo es visible.
Tessdata:El inicio de sesión del hipervínculo es visible.
Documentación:El inicio de sesión del hipervínculo es visible.

C# llama a Teseracto

En cuanto al uso de C# para llamar a Tesseract, hay dos librerías comúnmente usadas: Tesseract y TesseractOCR, de las cuales TesseractOCR se basa en el desarrollo secundario de la biblioteca Tesseract, y el código de las dos bibliotecas de código abierto es en realidad similar; la diferencia es que TesseractOCR llama a la última versión (5.5.0) de la biblioteca de enlaces dinámicos de .dll, por lo que se recomiendaTesseractOCR

Código Teseracto:El inicio de sesión del hipervínculo es visible.
Código TesseractOCR:El inicio de sesión del hipervínculo es visible.

Primero, necesitas descargar el chino simplificado (chi_sim.traineddata) modelo. (omitido)

El código es el siguiente:


Busca una captura de pantalla de Internet para probarla, la imagen original es la siguiente:



Los resultados del reconocimiento OCR son los siguientes:



(Fin)




Anterior:.NET/C# para crear un enlace directo
Próximo:Acelera la biblioteca de aprendizaje automático scikit-learn con sklearnex
Renuncia:
Todo el software, materiales de programación o artículos publicados por Code Farmer Network son únicamente para fines de aprendizaje e investigación; El contenido anterior no se utilizará con fines comerciales o ilegales; de lo contrario, los usuarios asumirán todas las consecuencias. La información de este sitio proviene de Internet, y las disputas de derechos de autor no tienen nada que ver con este sitio. Debes eliminar completamente el contenido anterior de tu ordenador en un plazo de 24 horas desde la descarga. Si te gusta el programa, por favor apoya el software genuino, compra el registro y obtén mejores servicios genuinos. Si hay alguna infracción, por favor contáctanos por correo electrónico.

Mail To:help@itsvse.com