.NET/C# utiliza reconocimiento de texto de Tesseract a OCR para imágenes

Pequeña basura · Publicado en 24/4/2025 9:20:01

Requisitos: Utiliza tecnología OCR para reconocer texto de imagen; si contiene algo de texto, el backend pasará inicialmente el filtro y dará prioridad. Los requisitos son relativamente sencillos.

Revisión:

.NET/C# utiliza FastDeploy para desplegar modelos OCR que reconocen texto
https://www.itsvse.com/thread-10911-1-1.html

.NET Core llama a Baidu PaddleOCR para reconocer imágenes y textos
https://www.itsvse.com/thread-9590-1-1.html

Tesseract OCR

Tesseract fue desarrollado originalmente entre 1985 y 1994 en HP Laboratories en Bristol, Reino Unido, y HP en Greeley, Colorado, EE. UU. En 1996, Tesseract fue modificado aún más para su portabilidad a sistemas Windows, y en 1998 fue parcialmente C++izado. En 2005, HP hizo Tesseract de código abierto. Fue desarrollado por Google desde 2006 hasta noviembre de 2018.

Tesseract 4 añade un motor OCR basado en Redes Neuronales (LSTM) que se centra en el reconocimiento de líneas, pero que sigue soportando el motor OCR heredado Tesseract 3, que funciona reconociendo patrones de caracteres. Utiliza el modo de motor OCR heredado (--oem 0) para habilitar la compatibilidad con Tesseract 3. También requiere archivos de datos de entrenamiento que soporten motores antiguos, como los archivos del repositorio tessdata.

Dirección del Tesseract:El inicio de sesión del hipervínculo es visible.
Tessdata:El inicio de sesión del hipervínculo es visible.
Documentación:El inicio de sesión del hipervínculo es visible.

C# llama a Teseracto

En cuanto al uso de C# para llamar a Tesseract, hay dos librerías comúnmente usadas: Tesseract y TesseractOCR, de las cuales TesseractOCR se basa en el desarrollo secundario de la biblioteca Tesseract, y el código de las dos bibliotecas de código abierto es en realidad similar; la diferencia es que TesseractOCR llama a la última versión (5.5.0) de la biblioteca de enlaces dinámicos de .dll, por lo que se recomiendaTesseractOCR。

Código Teseracto:El inicio de sesión del hipervínculo es visible.
Código TesseractOCR:El inicio de sesión del hipervínculo es visible.

Primero, necesitas descargar el chino simplificado (chi_sim.traineddata) modelo. (omitido)

El código es el siguiente:

El inicio de sesión es visible.

Busca una captura de pantalla de Internet para probarla, la imagen original es la siguiente:

Los resultados del reconocimiento OCR son los siguientes:

(Fin)

[Fuente] .NET/C# utiliza reconocimiento de texto de Tesseract a OCR para imágenes

Publicaciones relacionadas

Secciones vistas