Požiadavky: Použite technológiu OCR na rozpoznávanie obrázkového textu, ak obsahuje nejaký text, backend najskôr prejde skríningom a dá prioritu. Požiadavky sú relatívne jednoduché.
Revízia:
Tesseract OCR
Tesseract bol pôvodne vyvíjaný v rokoch 1985 až 1994 v HP Laboratories v Bristole, UK, a HP v Greeley, Colorado, USA. V roku 1996 bol Tesseract ďalej upravený na portovanie na Windows systémy a v roku 1998 bol čiastočne C++izovaný. V roku 2005 HP sprístupnilo Tesseract ako open source. Vyvíjala ju spoločnosť Google od roku 2006 do novembra 2018.
Tesseract 4 pridáva OCR engine založený na neurónovej sieti (LSTM), ktorý sa zameriava na rozpoznávanie riadkov, ale stále podporuje starší Tesseract OCR engine Tesseract 3, ktorý funguje na základe rozpoznávania znakových vzorov. Použite starší režim OCR engine (--oem 0) na povolenie kompatibility s Tesseract 3. Vyžaduje tiež tréningové dátové súbory, ktoré podporujú staršie enginy, napríklad súbory z tessdata repozitára.
Adresa tesseraktu:Prihlásenie na hypertextový odkaz je viditeľné. tessdata:Prihlásenie na hypertextový odkaz je viditeľné. Dokumentácia:Prihlásenie na hypertextový odkaz je viditeľné.
C# volá Tesseract
Čo sa týka použitia C# na volanie Tesseractu, existujú dve bežne používané knižnice: Tesseract a TesseractOCR, z ktorých TesseractOCR je založený na sekundárnom vývoji knižnice Tesseract, a kód týchto dvoch open source knižníc je v skutočnosti podobný, rozdiel je v tom, že TesseractOCR volá najnovšiu verziu (5.5.0) .dll dynamickej linkovej knižnice, takže sa to odporúčaTesseractOCR。
Tesseraktový kód:Prihlásenie na hypertextový odkaz je viditeľné. TesseractOCR kód:Prihlásenie na hypertextový odkaz je viditeľné.
Najprv si musíte stiahnuť Chinese Simplified (chi_sim.traineddata) model. (vynechané)
Kód je nasledovný:
Nájdite screenshot z internetu na otestovanie, pôvodná fotografia je nasledovná:
Výsledky rozpoznania OCR sú nasledovné:
(Koniec) |