Gereksinimler: OCR teknolojisini kullanarak görüntü metni tanıyabilir, eğer metin içeriyorsa, arka uç ilk olarak taramayı geçer ve öncelik verir. Gereksinimler nispeten basit.
Eleştiri:
Tesserakt OCR
Tesseract, ilk olarak 1985 ile 1994 yılları arasında İngiltere'nin Bristol kentindeki HP Laboratuvarlarında ve ABD'nin Colorado eyaletindeki Greeley merkezindeki HP'de geliştirilmiştir. 1996'da Tesseract, Windows sistemlerine port için daha fazla modifiye edildi ve 1998'de kısmen C++'a dönüştürüldü. 2005 yılında HP, Tesseract'ı açık kaynak yaptı. Google tarafından 2006'dan Kasım 2018'e kadar geliştirilmiştir.
Tesseract 4, hat tanımaya odaklanan ancak karakter kalıplarını tanıyarak çalışan Tesseract 3'ün eski Tesseract OCR motorunu destekleyen Neural Network (LSTM) tabanlı bir OCR motoru ekliyor. Tesseract 3 ile uyumluluğu sağlamak için eski OCR motor modunu (--oem 0) kullanın. Ayrıca, tessdata deposundan gelen dosyalar gibi eski motorları destekleyen veri dosyalarını da eğitmeyi gerektirir.
Tesseract Adresi:Bağlantı girişi görünür. tessdata:Bağlantı girişi görünür. Belge:Bağlantı girişi görünür.
C# Tesseract'i çağırır
Tesseract'ı çağırmak için C# kullanmaya gelince, yaygın olarak kullanılan iki kütüphane vardır: Tesseract ve TesseractOCR; TesseractOCR, Tesseract kütüphanesinin ikincil geliştirmesine dayanır ve iki açık kaynak kütüphanenin kodu aslında benzerdir; fark şu ki, TesseractOCR .dll dinamik bağlantı kütüphanesinin en son sürümünü (5.5.0) çağırır, bu yüzden tavsiye edilirTesseractOCR。
Tesseract Kodu:Bağlantı girişi görünür. TesseractOCR Kodu:Bağlantı girişi görünür.
Öncelikle, Çince Basitleştirilmiş (chi_sim.traineddata) modeli. (atlandı)
Kod şöyledir:
İnternetten bir ekran görüntüsü bulup test edin, orijinal fotoğraf şöyledir:
OCR tanıma sonuçları aşağıdaki gibidir:
(Son) |