Cerințe: Folosiți tehnologia OCR pentru a recunoaște textul imaginii; dacă acesta conține text, backend-ul va trece inițial de screening și va acorda prioritate. Cerințele sunt relativ simple.
Recenzie:
Tesseract OCR
Tesseract a fost dezvoltat inițial între 1985 și 1994 la HP Laboratories din Bristol, Marea Britanie, și HP în Greeley, Colorado, SUA. În 1996, Tesseract a fost modificat suplimentar pentru portarea pe sistemele Windows, iar în 1998 a fost parțial C++izat. În 2005, HP a făcut Tesseract open source. A fost dezvoltat de Google între 2006 și noiembrie 2018.
Tesseract 4 adaugă un motor OCR bazat pe Rețele Neuronale (LSTM) care se concentrează pe recunoașterea liniilor, dar care susține în continuare motorul OCR vechi Tesseract 3, care funcționează prin recunoașterea tiparelor de caractere. Folosește modul vechi de motor OCR (--oem 0) pentru a permite compatibilitatea cu Tesseract 3. De asemenea, necesită fișiere de antrenament care suportă motoare mai vechi, cum ar fi fișierele din depozitul tessdata.
Adresa Tesseract:Autentificarea cu hyperlink este vizibilă. Tessdata:Autentificarea cu hyperlink este vizibilă. Documentație:Autentificarea cu hyperlink este vizibilă.
C# numește Tesseract
În ceea ce privește folosirea C# pentru apelarea Tesseract, există două biblioteci folosite frecvent: Tesseract și TesseractOCR, dintre care TesseractOCR se bazează pe dezvoltarea secundară a bibliotecii Tesseract, iar codul celor două biblioteci open source este de fapt similar, diferența fiind că TesseractOCR apelează cea mai recentă versiune (5.5.0) a bibliotecii .dll dynamic link, deci este recomandatTesseractOCR。
Cod Tesseract:Autentificarea cu hyperlink este vizibilă. Cod TesseractOCR:Autentificarea cu hyperlink este vizibilă.
Mai întâi, trebuie să descarci Chineza Simplificată (chi_sim.traineddata) model. (omitat)
Codul este următorul:
Găsește o captură de ecran de pe Internet pentru a o testa, imaginea originală este următoarea:
Rezultatele recunoașterii OCR sunt următoarele:
(Sfârșit) |