Persyaratan: Gunakan teknologi OCR untuk mengenali teks gambar, jika berisi beberapa teks, backend awalnya akan lulus penyaringan dan memberikan prioritas. Persyaratannya relatif sederhana.
Resensi:
Tesseract OCR
Tesseract awalnya dikembangkan antara tahun 1985 dan 1994 di HP Laboratories di Bristol, Inggris, dan HP di Greeley, Colorado, AS. Pada tahun 1996, Tesseract dimodifikasi lebih lanjut untuk porting ke sistem Windows, dan pada tahun 1998 sebagian di-C ++. Pada tahun 2005, HP membuat Tesseract open source. Ini dikembangkan oleh Google dari 2006 hingga November 2018.
Tesseract 4 menambahkan mesin OCR berbasis Neural Network (LSTM) yang berfokus pada pengenalan saluran, tetapi masih mendukung mesin OCR Tesseract lama Tesseract 3, yang bekerja dengan mengenali pola karakter. Gunakan mode mesin OCR lama (--oem 0) untuk mengaktifkan kompatibilitas dengan Tesseract 3. Ini juga memerlukan file data pelatihan yang mendukung mesin lama, seperti file dari repositori tessdata.
Alamat Tesseract:Login hyperlink terlihat. data tess:Login hyperlink terlihat. Dokumentasi:Login hyperlink terlihat.
C# memanggil Tesseract
Mengenai penggunaan C# untuk memanggil Tesseract, ada dua library yang umum digunakan: Tesseract dan TesseractOCR, di mana TesseractOCR didasarkan pada pengembangan sekunder library Tesseract, dan kode dari dua library open source sebenarnya serupa, perbedaannya adalah TesseractOCR memanggil versi terbaru (5.5.0) dari library link dinamis .dll, sehingga direkomendasikanTesseractOCR。
Kode Tesseract:Login hyperlink terlihat. Kode TesseractOCR:Login hyperlink terlihat.
Pertama, Anda perlu mengunduh bahasa Cina Sederhana (chi_sim.data terlatih) model. (dihilangkan)
Kodenya adalah sebagai berikut:
Temukan tangkapan layar dari Internet untuk diuji, gambar aslinya adalah sebagai berikut:
Hasil pengakuan OCR adalah sebagai berikut:
(Akhir) |