Dieser Artikel ist ein Spiegelartikel der maschinellen Übersetzung, bitte klicken Sie hier, um zum Originalartikel zu springen.

Ansehen: 760|Antwort: 0

[Quelle] .NET/C# verwendet Tesseract zur OCR-Texterkennung für Bilder

[Link kopieren]
Veröffentlicht am 24.04.2025, 09:20:01 | | | |
Anforderungen: Verwenden Sie OCR-Technologie, um Bildtext zu erkennen; wenn dieser Text enthält, besteht das Backend zunächst das Screening und gibt Priorität. Die Anforderungen sind relativ einfach.

Rezension:

.NET/C# verwendet FastDeploy, um OCR-Modelle zur Texterkennung zu bereitstellen
https://www.itsvse.com/thread-10911-1-1.html

.NET Core ruft Baidu PaddleOCR auf, um Bilder und Texte zu erkennen
https://www.itsvse.com/thread-9590-1-1.html

Tesserakt OCR

Tesseract wurde ursprünglich zwischen 1985 und 1994 bei HP Laboratories in Bristol, Großbritannien, und HP in Greeley, Colorado, USA, entwickelt. 1996 wurde Tesseract für die Portierung auf Windows-Systeme weiter modifiziert und 1998 teilweise C++-isiert. Im Jahr 2005 machte HP Tesseract als Open Source. Es wurde von Google von 2006 bis November 2018 entwickelt.

Tesseract 4 fügt eine auf Neural Network (LSTM) basierende OCR-Engine hinzu, die sich auf die Zeilenerkennung konzentriert, aber weiterhin die Alt-Tesseract-OCR-Engine von Tesseract 3 unterstützt, die durch das Erkennen von Zeichenmustern funktioniert. Verwenden Sie den alten OCR-Engine-Modus (--OEM 0), um die Kompatibilität mit Tesseract 3 zu ermöglichen. Es erfordert außerdem Trainingsdatendateien, die ältere Engines unterstützen, wie z. B. Dateien aus dem tessdata-Repository.

Tesserakt-Adresse:Der Hyperlink-Login ist sichtbar.
tessdata:Der Hyperlink-Login ist sichtbar.
Dokumentation:Der Hyperlink-Login ist sichtbar.

C# ruft Tesserakt

Bezüglich der Verwendung von C# zum Aufruf von Tesseract gibt es zwei häufig verwendete Bibliotheken: Tesseract und TesseractOCR, wobei TesseractOCR auf der Sekundärentwicklung der Tesseract-Bibliothek basiert, und der Code der beiden Open-Source-Bibliotheken ist tatsächlich ähnlich; der Unterschied besteht darin, dass TesseractOCR die neueste Version (5.5.0) der .dll dynamischen Linkbibliothek aufruft, weshalb es empfohlen wirdTesseractOCR

Tesserakt-Code:Der Hyperlink-Login ist sichtbar.
TesseractOCR-Code:Der Hyperlink-Login ist sichtbar.

Zuerst musst du die chinesische vereinfachte (chi_sim.traineddata) Modell. (weggelassen)

Der Code lautet wie folgt:


Finden Sie einen Screenshot aus dem Internet zum Testen, das Originalbild ist wie folgt:



Die OCR-Erkennungsergebnisse sind wie folgt:



(Ende)




Vorhergehend:.NET/C#-Datei zum Erstellen eines festen Links
Nächster:Beschleunige die scikit-learn maschinelle Lernbibliothek mit sklearnex
Verzichtserklärung:
Alle von Code Farmer Network veröffentlichten Software, Programmiermaterialien oder Artikel dienen ausschließlich Lern- und Forschungszwecken; Die oben genannten Inhalte dürfen nicht für kommerzielle oder illegale Zwecke verwendet werden, andernfalls tragen die Nutzer alle Konsequenzen. Die Informationen auf dieser Seite stammen aus dem Internet, und Urheberrechtsstreitigkeiten haben nichts mit dieser Seite zu tun. Sie müssen die oben genannten Inhalte innerhalb von 24 Stunden nach dem Download vollständig von Ihrem Computer löschen. Wenn Ihnen das Programm gefällt, unterstützen Sie bitte echte Software, kaufen Sie die Registrierung und erhalten Sie bessere echte Dienstleistungen. Falls es eine Verletzung gibt, kontaktieren Sie uns bitte per E-Mail.

Mail To:help@itsvse.com