.NET/C# wykorzystuje Tesseract do OCR rozpoznawania tekstu dla obrazów

Mały śmiecie · Opublikowano 24.04.2025 09:20:01

Wymagania: Używaj technologii OCR do rozpoznawania tekstu na obrazie, jeśli zawiera jakiś tekst, backend początkowo przejdzie weryfikację i nada priorytet. Wymagania są stosunkowo proste.

Recenzja:

.NET/C# wykorzystuje FastDeploy do wdrażania modeli OCR do rozpoznawania tekstu
https://www.itsvse.com/thread-10911-1-1.html

.NET Core wywołuje Baidu PaddleOCR do rozpoznawania obrazów i tekstów
https://www.itsvse.com/thread-9590-1-1.html

Tesseract OCR

Tesseract został pierwotnie opracowany w latach 1985–1994 w HP Laboratories w Bristolu, Wielka Brytania, oraz HP w Greeley, Kolorado, USA. W 1996 roku Tesseract został dodatkowo zmodyfikowany do portowania na systemy Windows, a w 1998 roku częściowo przeszedł do C++. W 2005 roku HP udostępniło Tesseract jako open source. Była rozwijana przez Google w latach 2006–listopad 2018.

Tesseract 4 dodaje silnik OCR oparty na sieci neuronowej (LSTM), który koncentruje się na rozpoznawaniu linii, ale nadal wspiera starszy silnik OCR Tesseract 3, który działa poprzez rozpoznawanie wzorców znaków. Użyj starszego trybu silnika OCR (--OEM 0), aby umożliwić kompatybilność z Tesseract 3. Wymaga to także plików treningowych obsługujących starsze silniki, takich jak pliki z repozytorium tessdata.

Adres Tesseract:Logowanie do linku jest widoczne.
TessData:Logowanie do linku jest widoczne.
Dokumentacja:Logowanie do linku jest widoczne.

C# nazywa się Tesseract

Jeśli chodzi o używanie C# do wywoływania Tesseract, istnieją dwie powszechnie używane biblioteki: Tesseract i TesseractOCR, z których TesseractOCR opiera się na wtórnym rozwoju biblioteki Tesseract, a kod obu bibliotek open source jest w rzeczywistości podobny, różnica polega na tym, że TesseractOCR wywołuje najnowszą wersję (5.5.0) biblioteki .dll dynamicznych linków, więc jest to zalecaneTesseractOCR。

Kod Tesseract:Logowanie do linku jest widoczne.
Kod tesseractOCR:Logowanie do linku jest widoczne.

Najpierw musisz pobrać chińską wersję uproszczoną (chi_sim.traineddata) model. (pominięte)

Kod jest następujący:

Logowanie jest widoczne.

Znajdź zrzut ekranu z Internetu do testu, oryginalne zdjęcie wygląda następująco:

Wyniki rozpoznawania OCR są następujące:

(Koniec)

[Źródło] .NET/C# wykorzystuje Tesseract do OCR rozpoznawania tekstu dla obrazów

Powiązane wpisy

Oglądane sekcje