Krav: Använd OCR-teknik för att känna igen bildtext, om den innehåller text kommer backend initialt att klara screeningen och ge prioritet. Kraven är relativt enkla.
Recension:
Tesserakt OCR
Tesseract utvecklades ursprungligen mellan 1985 och 1994 vid HP Laboratories i Bristol, Storbritannien, och HP i Greeley, Colorado, USA. År 1996 modifierades Tesseract ytterligare för portering till Windows-system, och 1998 blev det delvis C++-format. År 2005 gjorde HP Tesseract öppen källkod. Det utvecklades av Google från 2006 till november 2018.
Tesseract 4 lägger till en Neural Network (LSTM)-baserad OCR-motor som fokuserar på linjeigenkänning, men som fortfarande stöder Tesseract 3:s äldre Tesseract OCR-motor, som fungerar genom att känna igen teckenmönster. Använd det äldre OCR-motorläget (--oem 0) för att möjliggöra kompatibilitet med Tesseract 3. Det kräver också träningsdatafiler som stödjer äldre motorer, såsom filer från tessdata-arkivet.
Tesseraktens adress:Inloggningen med hyperlänken är synlig. TESSDATA:Inloggningen med hyperlänken är synlig. Dokumentation:Inloggningen med hyperlänken är synlig.
C# kallar Tesseract
När det gäller att använda C# för att anropa Tesseract finns det två vanligt använda bibliotek: Tesseract och TesseractOCR, där TesseractOCR baseras på sekundärutvecklingen av Tesseract-biblioteket, och koden för de två open source-biblioteken är faktiskt liknande, skillnaden är att TesseractOCR anropar den senaste versionen (5.5.0) av det .dll dynamiska länkbiblioteket, så det rekommenderasTesseractOCR。
Tesseraktkod:Inloggningen med hyperlänken är synlig. TesseractOCR-kod:Inloggningen med hyperlänken är synlig.
Först behöver du ladda ner den förenklade kinesiska (chi_sim.traineddata) modell. (utelämnat)
Koden är följande:
Hitta en skärmdump från internet för att testa, originalbilden är följande:
OCR-igenkänningsresultaten är följande:
(Slut) |