Wymagania: Używaj technologii OCR do rozpoznawania tekstu na obrazie, jeśli zawiera jakiś tekst, backend początkowo przejdzie weryfikację i nada priorytet. Wymagania są stosunkowo proste.
Recenzja:
Tesseract OCR
Tesseract został pierwotnie opracowany w latach 1985–1994 w HP Laboratories w Bristolu, Wielka Brytania, oraz HP w Greeley, Kolorado, USA. W 1996 roku Tesseract został dodatkowo zmodyfikowany do portowania na systemy Windows, a w 1998 roku częściowo przeszedł do C++. W 2005 roku HP udostępniło Tesseract jako open source. Była rozwijana przez Google w latach 2006–listopad 2018.
Tesseract 4 dodaje silnik OCR oparty na sieci neuronowej (LSTM), który koncentruje się na rozpoznawaniu linii, ale nadal wspiera starszy silnik OCR Tesseract 3, który działa poprzez rozpoznawanie wzorców znaków. Użyj starszego trybu silnika OCR (--OEM 0), aby umożliwić kompatybilność z Tesseract 3. Wymaga to także plików treningowych obsługujących starsze silniki, takich jak pliki z repozytorium tessdata.
Adres Tesseract:Logowanie do linku jest widoczne. TessData:Logowanie do linku jest widoczne. Dokumentacja:Logowanie do linku jest widoczne.
C# nazywa się Tesseract
Jeśli chodzi o używanie C# do wywoływania Tesseract, istnieją dwie powszechnie używane biblioteki: Tesseract i TesseractOCR, z których TesseractOCR opiera się na wtórnym rozwoju biblioteki Tesseract, a kod obu bibliotek open source jest w rzeczywistości podobny, różnica polega na tym, że TesseractOCR wywołuje najnowszą wersję (5.5.0) biblioteki .dll dynamicznych linków, więc jest to zalecaneTesseractOCR。
Kod Tesseract:Logowanie do linku jest widoczne. Kod tesseractOCR:Logowanie do linku jest widoczne.
Najpierw musisz pobrać chińską wersję uproszczoną (chi_sim.traineddata) model. (pominięte)
Kod jest następujący:
Znajdź zrzut ekranu z Internetu do testu, oryginalne zdjęcie wygląda następująco:
Wyniki rozpoznawania OCR są następujące:
(Koniec) |