.NET/C# Tesseract-ot használ OCR-re szövegfelismerés képekhez

Kis szemét · Közzétéve 2025. 04. 24. 9:20:01

Követelmények: Használj OCR technológiát a képszöveg felismerésére, ha tartalmaz szöveget, a háttérrendszer először áthalad a szűrésen és prioritást ad. A követelmények viszonylag egyszerűek.

Szemle:

A .NET/C# a FastDeploy-t használja OCR modellek telepítésére a szöveg felismerésére
https://www.itsvse.com/thread-10911-1-1.html

A .NET Core hívja a Baidu PaddleOCR-t a képek és szövegek felismerésére
https://www.itsvse.com/thread-9590-1-1.html

Tesseract OCR

A Tesseractot eredetileg 1985 és 1994 között fejlesztették ki a HP Laboratories-ben Bristolban, az Egyesült Királyságban, valamint a HP-nél Greeley-ben, Colorado államban, az USA-ban. 1996-ban a Tesseractot tovább módosították Windows rendszerekre való portolásra, 1998-ban pedig részben C++-os lett. 2005-ben a HP elkészítette a Tesseract nyílt forráskódját. A Google fejlesztette 2006-tól 2018 novemberéig.

A Tesseract 4 hozzáad egy Neural Network (LSTM) alapú OCR motort, amely a vonalfelismerésre fókuszál, de továbbra is támogatja a Tesseract 3 örökös Tesseract OCR motorját, amely a karakterminták felismerésével működik. Használd a régi OCR motor módot (--oem 0) a Tesseract 3-mal való kompatibilitás érdekében. Emellett olyan tanítási adatfájlokat is igényel, amelyek régebbi motorokat támogatnak, például a tessdata tárolóból származó fájlokat.

Tesseract cím:A hiperlink bejelentkezés látható.
tessdata:A hiperlink bejelentkezés látható.
Dokumentáció:A hiperlink bejelentkezés látható.

C# hívja Tesseractot

A C# használatával kapcsolatban a Tesseract meghívására két leggyakrabban használt könyvtár létezik: a Tesseract és a TesseractOCR, amelyekből a TesseractOCR a Tesseract könyvtár másodlagos fejlesztésén alapul, és a két nyílt forráskódú könyvtár kódja valójában hasonló, a különbség az, hogy a TesseractOCR a .dll dinamikus link könyvtárának legújabb verzióját (5.5.0) hívja, ezért ajánlottTesseractOCR。

Tesseract kód:A hiperlink bejelentkezés látható.
TesseractOCR kód:A hiperlink bejelentkezés látható.

Először is le kell tölteni a kínai egyszerűsített (chi_sim.traineddata) modell. (kihagyva)

A kódex a következő:

A bejelentkezés látható.

Keress egy képernyőképet az internetről, hogy tesztelj, az eredeti kép a következő:

Az OCR felismerési eredmények a következők:

(Vége)

[Forrás] .NET/C# Tesseract-ot használ OCR-re szövegfelismerés képekhez

Kapcsolódó bejegyzések

Megtekintett szakaszok