Este artigo é um artigo espelhado de tradução automática, por favor clique aqui para ir para o artigo original.

Vista: 760|Resposta: 0

[Fonte] .NET/C# usa reconhecimento de texto do Tesseract para OCR para imagens

[Copiar link]
Postado em 2025-4-24 09:20:01 | | | |
Requisitos: Use a tecnologia OCR para reconhecer texto de imagem; se ele contiver algum texto, o backend inicialmente passará pela triagem e dará prioridade. Os requisitos são relativamente simples.

Revisar:

.NET/C# usa o FastDeploy para implantar modelos OCR para reconhecer texto
https://www.itsvse.com/thread-10911-1-1.html

O .NET Core chama o Baidu PaddleOCR para reconhecer imagens e textos
https://www.itsvse.com/thread-9590-1-1.html

Tesseract OCR

O Tesseract foi originalmente desenvolvido entre 1985 e 1994 nos Laboratórios HP em Bristol, Reino Unido, e na HP em Greeley, Colorado, EUA. Em 1996, o Tesseract foi ainda modificado para porte para sistemas Windows, e em 1998 foi parcialmente C++izado. Em 2005, a HP tornou o Tesseract open source. Foi desenvolvido pelo Google de 2006 até novembro de 2018.

O Tesseract 4 adiciona um motor OCR baseado em Rede Neural Network (LSTM) que foca no reconhecimento de linhas, mas ainda suporta o antigo motor OCR Tesseract do Tesseract 3, que funciona reconhecendo padrões de caracteres. Use o modo de motor OCR legado (--oem 0) para permitir a compatibilidade com o Tesseract 3. Também requer arquivos de dados de treinamento que suportem motores mais antigos, como arquivos do repositório tessdata.

Endereço do Tesseract:O login do hiperlink está visível.
Tessdata:O login do hiperlink está visível.
Documentação:O login do hiperlink está visível.

C# chama Tesseract

Sobre o uso de C# para chamar o Tesseract, existem duas bibliotecas comumente usadas: Tesseract e TesseractOCR, das quais o TesseractOCR é baseado no desenvolvimento secundário da biblioteca Tesseract, e o código das duas bibliotecas open source é na verdade semelhante; a diferença é que o TesseractOCR chama a versão mais recente (5.5.0) da biblioteca .dll dynamic link, então é recomendadoTesseractOCR

Código Tesseract:O login do hiperlink está visível.
Código TesseractOCR:O login do hiperlink está visível.

Primeiro, você precisa baixar o Chinês Simplificado (chi_sim.traineddata) modelo. (omitido)

O código é o seguinte:


Encontre uma captura de tela na Internet para testar, a imagem original é a seguinte:



Os resultados do reconhecimento do OCR são os seguintes:



(Fim)




Anterior:.NET/C# para criar um link fixo
Próximo:Acelere a biblioteca de aprendizado de máquina scikit-learn com sklearnex
Disclaimer:
Todo software, material de programação ou artigos publicados pela Code Farmer Network são apenas para fins de aprendizado e pesquisa; O conteúdo acima não deve ser usado para fins comerciais ou ilegais, caso contrário, os usuários terão todas as consequências. As informações deste site vêm da Internet, e disputas de direitos autorais não têm nada a ver com este site. Você deve deletar completamente o conteúdo acima do seu computador em até 24 horas após o download. Se você gosta do programa, por favor, apoie um software genuíno, compre o registro e obtenha serviços genuínos melhores. Se houver qualquer infração, por favor, entre em contato conosco por e-mail.

Mail To:help@itsvse.com