Requisitos: Utiliza tecnología OCR para reconocer texto de imagen; si contiene algo de texto, el backend pasará inicialmente el filtro y dará prioridad. Los requisitos son relativamente sencillos.
Revisión:
Tesseract OCR
Tesseract fue desarrollado originalmente entre 1985 y 1994 en HP Laboratories en Bristol, Reino Unido, y HP en Greeley, Colorado, EE. UU. En 1996, Tesseract fue modificado aún más para su portabilidad a sistemas Windows, y en 1998 fue parcialmente C++izado. En 2005, HP hizo Tesseract de código abierto. Fue desarrollado por Google desde 2006 hasta noviembre de 2018.
Tesseract 4 añade un motor OCR basado en Redes Neuronales (LSTM) que se centra en el reconocimiento de líneas, pero que sigue soportando el motor OCR heredado Tesseract 3, que funciona reconociendo patrones de caracteres. Utiliza el modo de motor OCR heredado (--oem 0) para habilitar la compatibilidad con Tesseract 3. También requiere archivos de datos de entrenamiento que soporten motores antiguos, como los archivos del repositorio tessdata.
Dirección del Tesseract:El inicio de sesión del hipervínculo es visible. Tessdata:El inicio de sesión del hipervínculo es visible. Documentación:El inicio de sesión del hipervínculo es visible.
C# llama a Teseracto
En cuanto al uso de C# para llamar a Tesseract, hay dos librerías comúnmente usadas: Tesseract y TesseractOCR, de las cuales TesseractOCR se basa en el desarrollo secundario de la biblioteca Tesseract, y el código de las dos bibliotecas de código abierto es en realidad similar; la diferencia es que TesseractOCR llama a la última versión (5.5.0) de la biblioteca de enlaces dinámicos de .dll, por lo que se recomiendaTesseractOCR。
Código Teseracto:El inicio de sesión del hipervínculo es visible. Código TesseractOCR:El inicio de sesión del hipervínculo es visible.
Primero, necesitas descargar el chino simplificado (chi_sim.traineddata) modelo. (omitido)
El código es el siguiente:
Busca una captura de pantalla de Internet para probarla, la imagen original es la siguiente:
Los resultados del reconocimiento OCR son los siguientes:
(Fin) |