.NET/C# gebruikt Tesseract om tekstherkenning voor afbeeldingen te OCR-en

Klein tuig · Geplaatst op 24-04-2025 09:20:01

Vereisten: Gebruik OCR-technologie om beeldtekst te herkennen; als deze tekst bevat, zal de backend aanvankelijk de screening doorstaan en prioriteit geven. De vereisten zijn relatief eenvoudig.

Recensie:

.NET/C# gebruikt FastDeploy om OCR-modellen uit te rollen die tekst herkennen
https://www.itsvse.com/thread-10911-1-1.html

.NET Core roept Baidu PaddleOCR aan om afbeeldingen en teksten te herkennen
https://www.itsvse.com/thread-9590-1-1.html

Tesseract OCR

Tesseract werd oorspronkelijk ontwikkeld tussen 1985 en 1994 bij HP Laboratories in Bristol, VK, en HP in Greeley, Colorado, VS. In 1996 werd Tesseract verder aangepast voor porting naar Windows-systemen, en in 1998 werd het gedeeltelijk C++-geïnvesteerd. In 2005 maakte HP Tesseract open source. Het werd ontwikkeld door Google van 2006 tot november 2018.

Tesseract 4 voegt een op Neural Network (LSTM) gebaseerde OCR-engine toe die zich richt op lijnherkenning, maar nog steeds de legacy Tesseract OCR-engine van Tesseract 3 ondersteunt, die werkt door tekenpatronen te herkennen. Gebruik de legacy OCR-enginemodus (--oem 0) om compatibiliteit met Tesseract 3 mogelijk te maken. Het vereist ook trainingsdatabestanden die oudere engines ondersteunen, zoals bestanden uit de tessdata-repository.

Tesseract-aanspraak:De hyperlink-login is zichtbaar.
TESSDATA:De hyperlink-login is zichtbaar.
Documentatie:De hyperlink-login is zichtbaar.

C# noemt Tesseract

Wat betreft het gebruik van C# om Tesseract aan te roepen, zijn er twee veelgebruikte bibliotheken: Tesseract en TesseractOCR, waarvan TesseractOCR gebaseerd is op de secundaire ontwikkeling van de Tesseract-bibliotheek, en de code van de twee open source bibliotheken is eigenlijk vergelijkbaar; het verschil is dat TesseractOCR de nieuwste versie (5.5.0) van de .dll dynamische linkbibliotheek aanroept, dus het wordt aanbevolenTesseractOCR。

Tesseractcode:De hyperlink-login is zichtbaar.
TesseractOCR-code:De hyperlink-login is zichtbaar.

Eerst moet je de Chinese vereenvoudigde (chi_sim.traineddata) model. (weggelaten)

De code is als volgt:

Inloggen is zichtbaar.

Zoek een screenshot van internet om te testen, de originele afbeelding is als volgt:

De OCR-herkenningsresultaten zijn als volgt:

(Einde)

[Bron] .NET/C# gebruikt Tesseract om tekstherkenning voor afbeeldingen te OCR-en

Gerelateerde berichten

Secties bekeken