.NET/C# naudoja Tesseract vaizdų OCR teksto atpažinimui

Mažai purvo · Paskelbta 2025-04-24 09:20:01

Reikalavimai: Naudokite OCR technologiją, kad atpažintumėte vaizdo tekstą, jei jame yra teksto, užpakalinė dalis iš pradžių praeis atranką ir suteiks pirmenybę. Reikalavimai yra gana paprasti.

Peržiūra:

.NET/C# naudoja "FastDeploy", kad įdiegtų OCR modelius, kad atpažintų tekstą
https://www.itsvse.com/thread-10911-1-1.html

.NET Core kviečia Baidu PaddleOCR atpažinti vaizdus ir tekstus
https://www.itsvse.com/thread-9590-1-1.html

Tesseract OCR

"Tesseract" iš pradžių buvo sukurtas 1985–1994 m. "HP Laboratories" Bristolyje, Jungtinėje Karalystėje, ir "HP" Greeley, Kolorado valstijoje, JAV. 1996 m. Tesseract buvo dar labiau modifikuotas perkėlimui į Windows sistemas, o 1998 m. jis buvo iš dalies C++ized. 2005 m. HP padarė Tesseract atvirojo kodo. Jį "Google" sukūrė nuo 2006 m. iki 2018 m. lapkričio.

"Tesseract 4" prideda neuroniniu tinklu (LSTM) pagrįstą OCR variklį, kuris sutelkia dėmesį į linijų atpažinimą, tačiau vis tiek palaiko "Tesseract 3" senąjį "Tesseract OCR" variklį, kuris veikia atpažindamas simbolių modelius. Naudokite senąjį OCR variklio režimą (--oem 0), kad įgalintumėte suderinamumą su Tesseract 3. Tam taip pat reikalingi mokymo duomenų failai, palaikantys senesnius variklius, pvz., failus iš tessdata saugyklos.

Tesseract adresas:Hipersaito prisijungimas matomas.
tessdata:Hipersaito prisijungimas matomas.
Dokumentacija:Hipersaito prisijungimas matomas.

C# kviečia Tesseract

Kalbant apie C# naudojimą Tesseract iškviesti, yra dvi dažniausiai naudojamos bibliotekos: Tesseract ir TesseractOCR, iš kurių TesseractOCR yra pagrįstas Tesseract bibliotekos antrine plėtra, o dviejų atvirojo kodo bibliotekų kodas iš tikrųjų yra panašus, skirtumas tas, kad TesseractOCR iškviečia naujausią .dll dinaminių nuorodų bibliotekos versiją (5.5.0), todėl rekomenduojamaTesseractOCR。

Tesseract kodas:Hipersaito prisijungimas matomas.
TesseractOCR kodas:Hipersaito prisijungimas matomas.

Pirmiausia turite atsisiųsti supaprastintą kinų kalbą (chi_sim.traineddata) modelį. (praleista)

Kodas yra toks:

Prisijungimas matomas.

Raskite ekrano kopiją iš interneto, kad išbandytumėte, originalus paveikslėlis yra toks:

OCR atpažinimo rezultatai yra tokie:

(Pabaiga)

[Šaltinis] .NET/C# naudoja Tesseract vaizdų OCR teksto atpažinimui

Susijusios žinutės

Peržiūrėtos sekcijos