.NET/C# menggunakan Tesseract untuk OCR pengenalan teks untuk gambar

Sampah kecil · Diposting pada 24/04/2025 09.20.01

Persyaratan: Gunakan teknologi OCR untuk mengenali teks gambar, jika berisi beberapa teks, backend awalnya akan lulus penyaringan dan memberikan prioritas. Persyaratannya relatif sederhana.

Resensi:

.NET/C# menggunakan FastDeploy untuk menyebarkan model OCR untuk mengenali teks
https://www.itsvse.com/thread-10911-1-1.html

.NET Core memanggil Baidu PaddleOCR untuk mengenali gambar dan teks
https://www.itsvse.com/thread-9590-1-1.html

Tesseract OCR

Tesseract awalnya dikembangkan antara tahun 1985 dan 1994 di HP Laboratories di Bristol, Inggris, dan HP di Greeley, Colorado, AS. Pada tahun 1996, Tesseract dimodifikasi lebih lanjut untuk porting ke sistem Windows, dan pada tahun 1998 sebagian di-C ++. Pada tahun 2005, HP membuat Tesseract open source. Ini dikembangkan oleh Google dari 2006 hingga November 2018.

Tesseract 4 menambahkan mesin OCR berbasis Neural Network (LSTM) yang berfokus pada pengenalan saluran, tetapi masih mendukung mesin OCR Tesseract lama Tesseract 3, yang bekerja dengan mengenali pola karakter. Gunakan mode mesin OCR lama (--oem 0) untuk mengaktifkan kompatibilitas dengan Tesseract 3. Ini juga memerlukan file data pelatihan yang mendukung mesin lama, seperti file dari repositori tessdata.

Alamat Tesseract:Login hyperlink terlihat.
data tess:Login hyperlink terlihat.
Dokumentasi:Login hyperlink terlihat.

C# memanggil Tesseract

Mengenai penggunaan C# untuk memanggil Tesseract, ada dua library yang umum digunakan: Tesseract dan TesseractOCR, di mana TesseractOCR didasarkan pada pengembangan sekunder library Tesseract, dan kode dari dua library open source sebenarnya serupa, perbedaannya adalah TesseractOCR memanggil versi terbaru (5.5.0) dari library link dinamis .dll, sehingga direkomendasikanTesseractOCR。

Kode Tesseract:Login hyperlink terlihat.
Kode TesseractOCR:Login hyperlink terlihat.

Pertama, Anda perlu mengunduh bahasa Cina Sederhana (chi_sim.data terlatih) model. (dihilangkan)

Kodenya adalah sebagai berikut:

Login terlihat.

Temukan tangkapan layar dari Internet untuk diuji, gambar aslinya adalah sebagai berikut:

Hasil pengakuan OCR adalah sebagai berikut:

(Akhir)

[Sumber] .NET/C# menggunakan Tesseract untuk OCR pengenalan teks untuk gambar

Pos terkait

Bagian yang dilihat