Requisitos: Use a tecnologia OCR para reconhecer texto de imagem; se ele contiver algum texto, o backend inicialmente passará pela triagem e dará prioridade. Os requisitos são relativamente simples.
Revisar:
Tesseract OCR
O Tesseract foi originalmente desenvolvido entre 1985 e 1994 nos Laboratórios HP em Bristol, Reino Unido, e na HP em Greeley, Colorado, EUA. Em 1996, o Tesseract foi ainda modificado para porte para sistemas Windows, e em 1998 foi parcialmente C++izado. Em 2005, a HP tornou o Tesseract open source. Foi desenvolvido pelo Google de 2006 até novembro de 2018.
O Tesseract 4 adiciona um motor OCR baseado em Rede Neural Network (LSTM) que foca no reconhecimento de linhas, mas ainda suporta o antigo motor OCR Tesseract do Tesseract 3, que funciona reconhecendo padrões de caracteres. Use o modo de motor OCR legado (--oem 0) para permitir a compatibilidade com o Tesseract 3. Também requer arquivos de dados de treinamento que suportem motores mais antigos, como arquivos do repositório tessdata.
Endereço do Tesseract:O login do hiperlink está visível. Tessdata:O login do hiperlink está visível. Documentação:O login do hiperlink está visível.
C# chama Tesseract
Sobre o uso de C# para chamar o Tesseract, existem duas bibliotecas comumente usadas: Tesseract e TesseractOCR, das quais o TesseractOCR é baseado no desenvolvimento secundário da biblioteca Tesseract, e o código das duas bibliotecas open source é na verdade semelhante; a diferença é que o TesseractOCR chama a versão mais recente (5.5.0) da biblioteca .dll dynamic link, então é recomendadoTesseractOCR。
Código Tesseract:O login do hiperlink está visível. Código TesseractOCR:O login do hiperlink está visível.
Primeiro, você precisa baixar o Chinês Simplificado (chi_sim.traineddata) modelo. (omitido)
O código é o seguinte:
Encontre uma captura de tela na Internet para testar, a imagem original é a seguinte:
Os resultados do reconhecimento do OCR são os seguintes:
(Fim) |