Reikalavimai: Naudokite OCR technologiją, kad atpažintumėte vaizdo tekstą, jei jame yra teksto, užpakalinė dalis iš pradžių praeis atranką ir suteiks pirmenybę. Reikalavimai yra gana paprasti.
Peržiūra:
Tesseract OCR
"Tesseract" iš pradžių buvo sukurtas 1985–1994 m. "HP Laboratories" Bristolyje, Jungtinėje Karalystėje, ir "HP" Greeley, Kolorado valstijoje, JAV. 1996 m. Tesseract buvo dar labiau modifikuotas perkėlimui į Windows sistemas, o 1998 m. jis buvo iš dalies C++ized. 2005 m. HP padarė Tesseract atvirojo kodo. Jį "Google" sukūrė nuo 2006 m. iki 2018 m. lapkričio.
"Tesseract 4" prideda neuroniniu tinklu (LSTM) pagrįstą OCR variklį, kuris sutelkia dėmesį į linijų atpažinimą, tačiau vis tiek palaiko "Tesseract 3" senąjį "Tesseract OCR" variklį, kuris veikia atpažindamas simbolių modelius. Naudokite senąjį OCR variklio režimą (--oem 0), kad įgalintumėte suderinamumą su Tesseract 3. Tam taip pat reikalingi mokymo duomenų failai, palaikantys senesnius variklius, pvz., failus iš tessdata saugyklos.
Tesseract adresas:Hipersaito prisijungimas matomas. tessdata:Hipersaito prisijungimas matomas. Dokumentacija:Hipersaito prisijungimas matomas.
C# kviečia Tesseract
Kalbant apie C# naudojimą Tesseract iškviesti, yra dvi dažniausiai naudojamos bibliotekos: Tesseract ir TesseractOCR, iš kurių TesseractOCR yra pagrįstas Tesseract bibliotekos antrine plėtra, o dviejų atvirojo kodo bibliotekų kodas iš tikrųjų yra panašus, skirtumas tas, kad TesseractOCR iškviečia naujausią .dll dinaminių nuorodų bibliotekos versiją (5.5.0), todėl rekomenduojamaTesseractOCR。
Tesseract kodas:Hipersaito prisijungimas matomas. TesseractOCR kodas:Hipersaito prisijungimas matomas.
Pirmiausia turite atsisiųsti supaprastintą kinų kalbą (chi_sim.traineddata) modelį. (praleista)
Kodas yra toks:
Raskite ekrano kopiją iš interneto, kad išbandytumėte, originalus paveikslėlis yra toks:
OCR atpažinimo rezultatai yra tokie:
(Pabaiga) |