Изисквания: Използвайте OCR технология за разпознаване на текст на изображения, ако съдържа текст, бекендът първоначално преминава проверката и дава приоритет. Изискванията са сравнително прости.
Преглед:
Тессеракт OCR
Тесеракт първоначално е разработен между 1985 и 1994 г. в HP Laboratories в Бристол, Великобритания, и HP в Грили, Колорадо, САЩ. През 1996 г. Тесеракт беше допълнително модифициран за портване към Windows системи, а през 1998 г. беше частично C++изиран. През 2005 г. HP направи Тесеракт с отворен код. Тя е разработена от Google от 2006 до ноември 2018 г.
Tesseract 4 добавя OCR енджин, базиран на невронна мрежа (LSTM), който се фокусира върху разпознаване на линии, но все пак поддържа наследения Tesseract OCR енджин на Tesseract 3, който работи чрез разпознаване на модели на символи. Използвайте наследствения OCR двигателен режим (--oem 0), за да активирате съвместимост с Tesseract 3. Изисква и обучителни файлове с данни, които поддържат по-стари енджини, като файлове от хранилището на tessdata.
Адрес на Тесеракта:Входът към хиперлинк е видим. Tessdata:Входът към хиперлинк е видим. Документация:Входът към хиперлинк е видим.
C# извиква Тесеракт
Относно използването на C# за извикване на Tesseract, има две често използвани библиотеки: Tesseract и TesseractOCR, като TesseractOCR е базиран на вторичното развитие на библиотеката Tesseract, а кодът на двете библиотеки с отворен код всъщност е сходен, като разликата е, че TesseractOCR извиква най-новата версия (5.5.0) на .dll динамичната библиотека за връзки, затова се препоръчваTesseractOCR。
Код на Тесеракта:Входът към хиперлинк е видим. TesseractOCR код:Входът към хиперлинк е видим.
Първо, трябва да изтеглите Chinese Simplified (chi_sim.обучени данни) модел. (пропуснато)
Кодът е следният:
Намерете скрийншот от интернет за тест, оригиналната снимка е следната:
Резултатите от OCR разпознаването са следните:
(Край) |