Vaatimukset: Käytä OCR-teknologiaa kuvatekstin tunnistamiseen; jos siinä on tekstiä, taustajärjestelmä läpäisee ensin seulonnan ja antaa prioriteetin. Vaatimukset ovat suhteellisen yksinkertaiset.
Arvostelu:
Tesseraktin OCR
Tesseract kehitettiin alun perin vuosina 1985–1994 HP Laboratoriesissa Bristolissa, Isossa-Britanniassa, ja HP:llä Greeleyssä, Coloradossa, Yhdysvalloissa. Vuonna 1996 Tesseractia muokattiin edelleen Windows-järjestelmiin porttaukseen, ja vuonna 1998 se osittain C++-muunneltiin. Vuonna 2005 HP teki Tesseractin avoimen lähdekoodin. Google kehitti sen vuosina 2006–marraskuu 2018.
Tesseract 4 lisää Neural Network (LSTM) -pohjaisen OCR-moottorin, joka keskittyy rivintunnistuseen, mutta tukee silti Tesseract 3:n perinteistä Tesseract OCR -moottoria, joka tunnistaa hahmokuvioita. Käytä vanhempaa OCR-moottoritilaa (--OEM 0) yhteensopivuuden mahdollistamiseksi Tesseract 3:n kanssa. Se vaatii myös koulutusdatatiedostoja, jotka tukevat vanhempia moottoreita, kuten tessdata-arkiston tiedostoja.
Tesseraktin osoite:Hyperlinkin kirjautuminen on näkyvissä. Tessdata:Hyperlinkin kirjautuminen on näkyvissä. Dokumentaatio:Hyperlinkin kirjautuminen on näkyvissä.
C# kutsuu Tesseraktia
Mitä tulee C#:n käyttöön Tesseractin kutsumiseen, on olemassa kaksi yleisesti käytettyä kirjastoa: Tesseract ja TesseractOCR, joista TesseractOCR perustuu Tesseract-kirjaston toissijaiseen kehitykseen, ja kahden avoimen lähdekoodin kirjaston koodi on itse asiassa samankaltainen. Ero on siinä, että TesseractOCR kutsuu .dll dynaamisen linkkikirjaston uusinta versiota (5.5.0), joten sitä suositellaanTesseractOCR。
Tesseraktin koodi:Hyperlinkin kirjautuminen on näkyvissä. TesseractOCR-koodi:Hyperlinkin kirjautuminen on näkyvissä.
Ensiksi sinun täytyy ladata kiinalainen yksinkertaistettu (chi_sim.traineddata) malli. (jätetty pois)
Koodi on seuraava:
Etsi internetistä kuvakaappaus testattavaksi, alkuperäinen kuva on seuraava:
OCR:n tunnistustulokset ovat seuraavat:
(Loppu) |