Вимоги: Використовуйте технологію OCR для розпізнавання тексту зображення; якщо він містить текст, бекенд спочатку пройде перевірку і надасть пріоритет. Вимоги досить прості.
Огляд:
Тессеракт OCR
Tesseract спочатку розроблявся між 1985 і 1994 роками в HP Laboratories у Брістолі, Великобританія, та HP у Грілі, Колорадо, США. У 1996 році Тессеракт був додатково модифікований для портування на Windows, а у 1998 році частково перетворили на C++. У 2005 році HP зробила Tesseract відкритим кодом. Її розробляла компанія Google з 2006 по листопад 2018 року.
Tesseract 4 додає OCR-рушій на основі нейронних мереж (LSTM), який зосереджений на розпізнаванні рядків, але все ще підтримує застарілий OCR-двигун Tesseract 3, який працює шляхом розпізнавання шаблонів символів. Використовуйте режим застарілого OCR-двигуна (--oem 0) для забезпечення сумісності з Tesseract 3. Він також вимагає навчальних файлів даних, які підтримують старі рушії, наприклад, файли з репозиторію tessdata.
Адреса Тессеракта:Вхід за гіперпосиланням видно. tessdata:Вхід за гіперпосиланням видно. Документації:Вхід за гіперпосиланням видно.
C# викликає Тессеракт
Щодо використання C# для виклику Tesseract, існує дві поширені бібліотеки: Tesseract і TesseractOCR, з яких TesseractOCR базується на вторинній розробці бібліотеки Tesseract, а код двох бібліотек з відкритим кодом насправді схожий, різниця в тому, що TesseractOCR викликає останню версію (5.5.0) бібліотеки .dll динамічного посилання, тому рекомендуєтьсяTesseractOCR。
Код Тессеракта:Вхід за гіперпосиланням видно. TesseractOCR код:Вхід за гіперпосиланням видно.
Спочатку вам потрібно завантажити Chinese Simplified (chi_sim.traineddata) моделі. (опущено)
Код виглядає так:
Знайдіть скріншот з Інтернету для перевірки, оригінальне зображення таке:
Результати визнання OCR такі:
(Кінець) |