.NET/C# käyttää Tesseractia OCR-tekstintunnistusta kuvissa

Pikku roisto · Julkaistu 24.4.2025 9.20.01

Vaatimukset: Käytä OCR-teknologiaa kuvatekstin tunnistamiseen; jos siinä on tekstiä, taustajärjestelmä läpäisee ensin seulonnan ja antaa prioriteetin. Vaatimukset ovat suhteellisen yksinkertaiset.

Arvostelu:

.NET/C# käyttää FastDeploya OCR-mallien käyttöönottoon tekstin tunnistamiseen
https://www.itsvse.com/thread-10911-1-1.html

.NET Core kutsuu Baidu PaddleOCR:ää tunnistaakseen kuvat ja tekstit
https://www.itsvse.com/thread-9590-1-1.html

Tesseraktin OCR

Tesseract kehitettiin alun perin vuosina 1985–1994 HP Laboratoriesissa Bristolissa, Isossa-Britanniassa, ja HP:llä Greeleyssä, Coloradossa, Yhdysvalloissa. Vuonna 1996 Tesseractia muokattiin edelleen Windows-järjestelmiin porttaukseen, ja vuonna 1998 se osittain C++-muunneltiin. Vuonna 2005 HP teki Tesseractin avoimen lähdekoodin. Google kehitti sen vuosina 2006–marraskuu 2018.

Tesseract 4 lisää Neural Network (LSTM) -pohjaisen OCR-moottorin, joka keskittyy rivintunnistuseen, mutta tukee silti Tesseract 3:n perinteistä Tesseract OCR -moottoria, joka tunnistaa hahmokuvioita. Käytä vanhempaa OCR-moottoritilaa (--OEM 0) yhteensopivuuden mahdollistamiseksi Tesseract 3:n kanssa. Se vaatii myös koulutusdatatiedostoja, jotka tukevat vanhempia moottoreita, kuten tessdata-arkiston tiedostoja.

Tesseraktin osoite:Hyperlinkin kirjautuminen on näkyvissä.
Tessdata:Hyperlinkin kirjautuminen on näkyvissä.
Dokumentaatio:Hyperlinkin kirjautuminen on näkyvissä.

C# kutsuu Tesseraktia

Mitä tulee C#:n käyttöön Tesseractin kutsumiseen, on olemassa kaksi yleisesti käytettyä kirjastoa: Tesseract ja TesseractOCR, joista TesseractOCR perustuu Tesseract-kirjaston toissijaiseen kehitykseen, ja kahden avoimen lähdekoodin kirjaston koodi on itse asiassa samankaltainen. Ero on siinä, että TesseractOCR kutsuu .dll dynaamisen linkkikirjaston uusinta versiota (5.5.0), joten sitä suositellaanTesseractOCR。

Tesseraktin koodi:Hyperlinkin kirjautuminen on näkyvissä.
TesseractOCR-koodi:Hyperlinkin kirjautuminen on näkyvissä.

Ensiksi sinun täytyy ladata kiinalainen yksinkertaistettu (chi_sim.traineddata) malli. (jätetty pois)

Koodi on seuraava:

Kirjautuminen näkyy.

Etsi internetistä kuvakaappaus testattavaksi, alkuperäinen kuva on seuraava:

OCR:n tunnistustulokset ovat seuraavat:

(Loppu)

[Lähde] .NET/C# käyttää Tesseractia OCR-tekstintunnistusta kuvissa

Aiheeseen liittyvät julkaisut

Katsotut osuudet