.NET/C# používa Tesseract na OCR rozpoznávanie textu obrázkov

Malý · Zverejnené 24. 4. 2025 9:20:01

Požiadavky: Použite technológiu OCR na rozpoznávanie obrázkového textu, ak obsahuje nejaký text, backend najskôr prejde skríningom a dá prioritu. Požiadavky sú relatívne jednoduché.

Revízia:

.NET/C# používa FastDeploy na nasadenie OCR modelov na rozpoznávanie textu
https://www.itsvse.com/thread-10911-1-1.html

.NET Core volá Baidu PaddleOCR na rozpoznávanie obrázkov a textov
https://www.itsvse.com/thread-9590-1-1.html

Tesseract OCR

Tesseract bol pôvodne vyvíjaný v rokoch 1985 až 1994 v HP Laboratories v Bristole, UK, a HP v Greeley, Colorado, USA. V roku 1996 bol Tesseract ďalej upravený na portovanie na Windows systémy a v roku 1998 bol čiastočne C++izovaný. V roku 2005 HP sprístupnilo Tesseract ako open source. Vyvíjala ju spoločnosť Google od roku 2006 do novembra 2018.

Tesseract 4 pridáva OCR engine založený na neurónovej sieti (LSTM), ktorý sa zameriava na rozpoznávanie riadkov, ale stále podporuje starší Tesseract OCR engine Tesseract 3, ktorý funguje na základe rozpoznávania znakových vzorov. Použite starší režim OCR engine (--oem 0) na povolenie kompatibility s Tesseract 3. Vyžaduje tiež tréningové dátové súbory, ktoré podporujú staršie enginy, napríklad súbory z tessdata repozitára.

Adresa tesseraktu:Prihlásenie na hypertextový odkaz je viditeľné.
tessdata:Prihlásenie na hypertextový odkaz je viditeľné.
Dokumentácia:Prihlásenie na hypertextový odkaz je viditeľné.

C# volá Tesseract

Čo sa týka použitia C# na volanie Tesseractu, existujú dve bežne používané knižnice: Tesseract a TesseractOCR, z ktorých TesseractOCR je založený na sekundárnom vývoji knižnice Tesseract, a kód týchto dvoch open source knižníc je v skutočnosti podobný, rozdiel je v tom, že TesseractOCR volá najnovšiu verziu (5.5.0) .dll dynamickej linkovej knižnice, takže sa to odporúčaTesseractOCR。

Tesseraktový kód:Prihlásenie na hypertextový odkaz je viditeľné.
TesseractOCR kód:Prihlásenie na hypertextový odkaz je viditeľné.

Najprv si musíte stiahnuť Chinese Simplified (chi_sim.traineddata) model. (vynechané)

Kód je nasledovný:

Prihlásenie je viditeľné.

Nájdite screenshot z internetu na otestovanie, pôvodná fotografia je nasledovná:

Výsledky rozpoznania OCR sú nasledovné:

(Koniec)

[Zdroj] .NET/C# používa Tesseract na OCR rozpoznávanie textu obrázkov

Súvisiace príspevky

Zobrazené sekcie