Anforderungen: Verwenden Sie OCR-Technologie, um Bildtext zu erkennen; wenn dieser Text enthält, besteht das Backend zunächst das Screening und gibt Priorität. Die Anforderungen sind relativ einfach.
Rezension:
Tesserakt OCR
Tesseract wurde ursprünglich zwischen 1985 und 1994 bei HP Laboratories in Bristol, Großbritannien, und HP in Greeley, Colorado, USA, entwickelt. 1996 wurde Tesseract für die Portierung auf Windows-Systeme weiter modifiziert und 1998 teilweise C++-isiert. Im Jahr 2005 machte HP Tesseract als Open Source. Es wurde von Google von 2006 bis November 2018 entwickelt.
Tesseract 4 fügt eine auf Neural Network (LSTM) basierende OCR-Engine hinzu, die sich auf die Zeilenerkennung konzentriert, aber weiterhin die Alt-Tesseract-OCR-Engine von Tesseract 3 unterstützt, die durch das Erkennen von Zeichenmustern funktioniert. Verwenden Sie den alten OCR-Engine-Modus (--OEM 0), um die Kompatibilität mit Tesseract 3 zu ermöglichen. Es erfordert außerdem Trainingsdatendateien, die ältere Engines unterstützen, wie z. B. Dateien aus dem tessdata-Repository.
Tesserakt-Adresse:Der Hyperlink-Login ist sichtbar. tessdata:Der Hyperlink-Login ist sichtbar. Dokumentation:Der Hyperlink-Login ist sichtbar.
C# ruft Tesserakt
Bezüglich der Verwendung von C# zum Aufruf von Tesseract gibt es zwei häufig verwendete Bibliotheken: Tesseract und TesseractOCR, wobei TesseractOCR auf der Sekundärentwicklung der Tesseract-Bibliothek basiert, und der Code der beiden Open-Source-Bibliotheken ist tatsächlich ähnlich; der Unterschied besteht darin, dass TesseractOCR die neueste Version (5.5.0) der .dll dynamischen Linkbibliothek aufruft, weshalb es empfohlen wirdTesseractOCR。
Tesserakt-Code:Der Hyperlink-Login ist sichtbar. TesseractOCR-Code:Der Hyperlink-Login ist sichtbar.
Zuerst musst du die chinesische vereinfachte (chi_sim.traineddata) Modell. (weggelassen)
Der Code lautet wie folgt:
Finden Sie einen Screenshot aus dem Internet zum Testen, das Originalbild ist wie folgt:
Die OCR-Erkennungsergebnisse sind wie folgt:
(Ende) |