Denna artikel är en spegelartikel om maskinöversättning, klicka här för att hoppa till originalartikeln.

Utsikt: 760|Svar: 0

[Källa] .NET/C# använder Tesseract för att OCR-textigenkänning för bilder

[Kopiera länk]
Publicerad 2025-4-24 09:20:01 | | | |
Krav: Använd OCR-teknik för att känna igen bildtext, om den innehåller text kommer backend initialt att klara screeningen och ge prioritet. Kraven är relativt enkla.

Recension:

.NET/C# använder FastDeploy för att distribuera OCR-modeller som känner igen text
https://www.itsvse.com/thread-10911-1-1.html

.NET Core anropar Baidu PaddleOCR för att känna igen bilder och texter
https://www.itsvse.com/thread-9590-1-1.html

Tesserakt OCR

Tesseract utvecklades ursprungligen mellan 1985 och 1994 vid HP Laboratories i Bristol, Storbritannien, och HP i Greeley, Colorado, USA. År 1996 modifierades Tesseract ytterligare för portering till Windows-system, och 1998 blev det delvis C++-format. År 2005 gjorde HP Tesseract öppen källkod. Det utvecklades av Google från 2006 till november 2018.

Tesseract 4 lägger till en Neural Network (LSTM)-baserad OCR-motor som fokuserar på linjeigenkänning, men som fortfarande stöder Tesseract 3:s äldre Tesseract OCR-motor, som fungerar genom att känna igen teckenmönster. Använd det äldre OCR-motorläget (--oem 0) för att möjliggöra kompatibilitet med Tesseract 3. Det kräver också träningsdatafiler som stödjer äldre motorer, såsom filer från tessdata-arkivet.

Tesseraktens adress:Inloggningen med hyperlänken är synlig.
TESSDATA:Inloggningen med hyperlänken är synlig.
Dokumentation:Inloggningen med hyperlänken är synlig.

C# kallar Tesseract

När det gäller att använda C# för att anropa Tesseract finns det två vanligt använda bibliotek: Tesseract och TesseractOCR, där TesseractOCR baseras på sekundärutvecklingen av Tesseract-biblioteket, och koden för de två open source-biblioteken är faktiskt liknande, skillnaden är att TesseractOCR anropar den senaste versionen (5.5.0) av det .dll dynamiska länkbiblioteket, så det rekommenderasTesseractOCR

Tesseraktkod:Inloggningen med hyperlänken är synlig.
TesseractOCR-kod:Inloggningen med hyperlänken är synlig.

Först behöver du ladda ner den förenklade kinesiska (chi_sim.traineddata) modell. (utelämnat)

Koden är följande:


Hitta en skärmdump från internet för att testa, originalbilden är följande:



OCR-igenkänningsresultaten är följande:



(Slut)




Föregående:.NET/C#-filen för att skapa en hård länk
Nästa:Accelerera scikit-learn maskininlärningsbiblioteket med sklearnex
Friskrivning:
All programvara, programmeringsmaterial eller artiklar som publiceras av Code Farmer Network är endast för lärande- och forskningsändamål; Ovanstående innehåll får inte användas för kommersiella eller olagliga ändamål, annars kommer användarna att bära alla konsekvenser. Informationen på denna sida kommer från internet, och upphovsrättstvister har inget med denna sida att göra. Du måste helt radera ovanstående innehåll från din dator inom 24 timmar efter nedladdning. Om du gillar programmet, vänligen stöd äkta programvara, köp registrering och få bättre äkta tjänster. Om det finns något intrång, vänligen kontakta oss via e-post.

Mail To:help@itsvse.com