Tento článok je zrkadlovým článkom o strojovom preklade, kliknite sem pre prechod na pôvodný článok.

Pohľad: 760|Odpoveď: 0

[Zdroj] .NET/C# používa Tesseract na OCR rozpoznávanie textu obrázkov

[Kopírovať odkaz]
Zverejnené 2025-4-24 09:20:01 | | | |
Požiadavky: Použite technológiu OCR na rozpoznávanie obrázkového textu, ak obsahuje nejaký text, backend najskôr prejde skríningom a dá prioritu. Požiadavky sú relatívne jednoduché.

Revízia:

.NET/C# používa FastDeploy na nasadenie OCR modelov na rozpoznávanie textu
https://www.itsvse.com/thread-10911-1-1.html

.NET Core volá Baidu PaddleOCR na rozpoznávanie obrázkov a textov
https://www.itsvse.com/thread-9590-1-1.html

Tesseract OCR

Tesseract bol pôvodne vyvíjaný v rokoch 1985 až 1994 v HP Laboratories v Bristole, UK, a HP v Greeley, Colorado, USA. V roku 1996 bol Tesseract ďalej upravený na portovanie na Windows systémy a v roku 1998 bol čiastočne C++izovaný. V roku 2005 HP sprístupnilo Tesseract ako open source. Vyvíjala ju spoločnosť Google od roku 2006 do novembra 2018.

Tesseract 4 pridáva OCR engine založený na neurónovej sieti (LSTM), ktorý sa zameriava na rozpoznávanie riadkov, ale stále podporuje starší Tesseract OCR engine Tesseract 3, ktorý funguje na základe rozpoznávania znakových vzorov. Použite starší režim OCR engine (--oem 0) na povolenie kompatibility s Tesseract 3. Vyžaduje tiež tréningové dátové súbory, ktoré podporujú staršie enginy, napríklad súbory z tessdata repozitára.

Adresa tesseraktu:Prihlásenie na hypertextový odkaz je viditeľné.
tessdata:Prihlásenie na hypertextový odkaz je viditeľné.
Dokumentácia:Prihlásenie na hypertextový odkaz je viditeľné.

C# volá Tesseract

Čo sa týka použitia C# na volanie Tesseractu, existujú dve bežne používané knižnice: Tesseract a TesseractOCR, z ktorých TesseractOCR je založený na sekundárnom vývoji knižnice Tesseract, a kód týchto dvoch open source knižníc je v skutočnosti podobný, rozdiel je v tom, že TesseractOCR volá najnovšiu verziu (5.5.0) .dll dynamickej linkovej knižnice, takže sa to odporúčaTesseractOCR

Tesseraktový kód:Prihlásenie na hypertextový odkaz je viditeľné.
TesseractOCR kód:Prihlásenie na hypertextový odkaz je viditeľné.

Najprv si musíte stiahnuť Chinese Simplified (chi_sim.traineddata) model. (vynechané)

Kód je nasledovný:


Nájdite screenshot z internetu na otestovanie, pôvodná fotografia je nasledovná:



Výsledky rozpoznania OCR sú nasledovné:



(Koniec)




Predchádzajúci:.NET/C# na vytvorenie pevného odkazu
Budúci:Zrýchliť knižnicu strojového učenia scikit-learn pomocou sklearnex
Vyhlásenie:
Všetok softvér, programovacie materiály alebo články publikované spoločnosťou Code Farmer Network slúžia len na vzdelávacie a výskumné účely; Vyššie uvedený obsah nesmie byť použitý na komerčné alebo nezákonné účely, inak nesú všetky následky používateľmi. Informácie na tejto stránke pochádzajú z internetu a spory o autorské práva s touto stránkou nesúvisia. Musíte úplne vymazať vyššie uvedený obsah zo svojho počítača do 24 hodín od stiahnutia. Ak sa vám program páči, podporte originálny softvér, zakúpte si registráciu a získajte lepšie originálne služby. Ak dôjde k akémukoľvek porušeniu, kontaktujte nás prosím e-mailom.

Mail To:help@itsvse.com