Követelmények: Használj OCR technológiát a képszöveg felismerésére, ha tartalmaz szöveget, a háttérrendszer először áthalad a szűrésen és prioritást ad. A követelmények viszonylag egyszerűek.
Szemle:
Tesseract OCR
A Tesseractot eredetileg 1985 és 1994 között fejlesztették ki a HP Laboratories-ben Bristolban, az Egyesült Királyságban, valamint a HP-nél Greeley-ben, Colorado államban, az USA-ban. 1996-ban a Tesseractot tovább módosították Windows rendszerekre való portolásra, 1998-ban pedig részben C++-os lett. 2005-ben a HP elkészítette a Tesseract nyílt forráskódját. A Google fejlesztette 2006-tól 2018 novemberéig.
A Tesseract 4 hozzáad egy Neural Network (LSTM) alapú OCR motort, amely a vonalfelismerésre fókuszál, de továbbra is támogatja a Tesseract 3 örökös Tesseract OCR motorját, amely a karakterminták felismerésével működik. Használd a régi OCR motor módot (--oem 0) a Tesseract 3-mal való kompatibilitás érdekében. Emellett olyan tanítási adatfájlokat is igényel, amelyek régebbi motorokat támogatnak, például a tessdata tárolóból származó fájlokat.
Tesseract cím:A hiperlink bejelentkezés látható. tessdata:A hiperlink bejelentkezés látható. Dokumentáció:A hiperlink bejelentkezés látható.
C# hívja Tesseractot
A C# használatával kapcsolatban a Tesseract meghívására két leggyakrabban használt könyvtár létezik: a Tesseract és a TesseractOCR, amelyekből a TesseractOCR a Tesseract könyvtár másodlagos fejlesztésén alapul, és a két nyílt forráskódú könyvtár kódja valójában hasonló, a különbség az, hogy a TesseractOCR a .dll dinamikus link könyvtárának legújabb verzióját (5.5.0) hívja, ezért ajánlottTesseractOCR。
Tesseract kód:A hiperlink bejelentkezés látható. TesseractOCR kód:A hiperlink bejelentkezés látható.
Először is le kell tölteni a kínai egyszerűsített (chi_sim.traineddata) modell. (kihagyva)
A kódex a következő:
Keress egy képernyőképet az internetről, hogy tesztelj, az eredeti kép a következő:
Az OCR felismerési eredmények a következők:
(Vége) |