.NET/C# folosește recunoașterea textului Tesseract pentru OCR pentru imagini

Mică mizerie · Postat pe 24.04.2025 09:20:01

Cerințe: Folosiți tehnologia OCR pentru a recunoaște textul imaginii; dacă acesta conține text, backend-ul va trece inițial de screening și va acorda prioritate. Cerințele sunt relativ simple.

Recenzie:

.NET/C# folosește FastDeploy pentru a implementa modele OCR pentru a recunoaște textul
https://www.itsvse.com/thread-10911-1-1.html

.NET Core apelează Baidu PaddleOCR pentru a recunoaște imagini și texte
https://www.itsvse.com/thread-9590-1-1.html

Tesseract OCR

Tesseract a fost dezvoltat inițial între 1985 și 1994 la HP Laboratories din Bristol, Marea Britanie, și HP în Greeley, Colorado, SUA. În 1996, Tesseract a fost modificat suplimentar pentru portarea pe sistemele Windows, iar în 1998 a fost parțial C++izat. În 2005, HP a făcut Tesseract open source. A fost dezvoltat de Google între 2006 și noiembrie 2018.

Tesseract 4 adaugă un motor OCR bazat pe Rețele Neuronale (LSTM) care se concentrează pe recunoașterea liniilor, dar care susține în continuare motorul OCR vechi Tesseract 3, care funcționează prin recunoașterea tiparelor de caractere. Folosește modul vechi de motor OCR (--oem 0) pentru a permite compatibilitatea cu Tesseract 3. De asemenea, necesită fișiere de antrenament care suportă motoare mai vechi, cum ar fi fișierele din depozitul tessdata.

Adresa Tesseract:Autentificarea cu hyperlink este vizibilă.
Tessdata:Autentificarea cu hyperlink este vizibilă.
Documentație:Autentificarea cu hyperlink este vizibilă.

C# numește Tesseract

În ceea ce privește folosirea C# pentru apelarea Tesseract, există două biblioteci folosite frecvent: Tesseract și TesseractOCR, dintre care TesseractOCR se bazează pe dezvoltarea secundară a bibliotecii Tesseract, iar codul celor două biblioteci open source este de fapt similar, diferența fiind că TesseractOCR apelează cea mai recentă versiune (5.5.0) a bibliotecii .dll dynamic link, deci este recomandatTesseractOCR。

Cod Tesseract:Autentificarea cu hyperlink este vizibilă.
Cod TesseractOCR:Autentificarea cu hyperlink este vizibilă.

Mai întâi, trebuie să descarci Chineza Simplificată (chi_sim.traineddata) model. (omitat)

Codul este următorul:

Autentificarea este vizibilă.

Găsește o captură de ecran de pe Internet pentru a o testa, imaginea originală este următoarea:

Rezultatele recunoașterii OCR sunt următoarele:

(Sfârșit)

[Sursă] .NET/C# folosește recunoașterea textului Tesseract pentru OCR pentru imagini

Postări conexe

Secțiuni vizualizate