Требования: Используйте технологию OCR для распознавания текста изображения; если в нём есть текст, бэкенд изначально пройдёт проверку и даст приоритет. Требования относительно просты.
Обзор:
Тессеракт OCR
Тессеракт был изначально разработан в период с 1985 по 1994 год в лабораториях HP в Бристоле, Великобритания, и HP в Грили, штат Колорадо, США. В 1996 году Тессеракт был дополнительно модифицирован для портирования на Windows, а в 1998 году частично перешёл на C++. В 2005 году HP сделала Tesseract с открытым исходным кодом. Её разрабатывала Google с 2006 по ноябрь 2018 года.
Tesseract 4 добавляет OCR-движок на основе нейронных сетей (LSTM), который ориентирован на распознавание строк, но при этом поддерживает устаревший движок OCR Tesseract 3, который работает за счёт распознавания шаблонов символов. Используйте режим старого OCR-движка (--oem 0) для обеспечения совместимости с Tesseract 3. Также требуется обучающие файлы данных, поддерживающие старые движки, например, файлы из репозитория tessdata.
Адрес Тессеракта:Вход по гиперссылке виден. TESSDATA:Вход по гиперссылке виден. Документация:Вход по гиперссылке виден.
C# вызывает Тессеракт
Что касается использования C# для вызова Tesseract, существуют две широко используемые библиотеки: Tesseract и TesseractOCR, из которых TesseractOCR основан на вторичной разработке библиотеки Tesseract, а код двух открытых библиотек на самом деле схож. Разница в том, что TesseractOCR вызывает последнюю версию (5.5.0) .dll динамической библиотеки связей, поэтому рекомендуетсяTesseractOCR。
Код Тессеракта:Вход по гиперссылке виден. TesseractOCR Code:Вход по гиперссылке виден.
Сначала вам нужно скачать Chinese Simplified (chi_sim.обученные данные) модели. (опущено)
Код таков:
Найдите скриншот из Интернета для проверки, оригинальное изображение выглядит следующим образом:
Результаты распознавания OCR следующие:
(Конец) |