Эта статья является зеркальной статьёй машинного перевода, пожалуйста, нажмите здесь, чтобы перейти к оригиналу.

Вид: 760|Ответ: 0

[Источник] .NET/C# использует Tesseract для распознавания текста OCR для изображений

[Скопировать ссылку]
Опубликовано 24.04.2025 09:20:01 | | | |
Требования: Используйте технологию OCR для распознавания текста изображения; если в нём есть текст, бэкенд изначально пройдёт проверку и даст приоритет. Требования относительно просты.

Обзор:

.NET/C# использует FastDeploy для развертывания OCR-моделей с целью распознавания текста
https://www.itsvse.com/thread-10911-1-1.html

.NET Core вызывает Baidu PaddleOCR для распознавания изображений и текстов
https://www.itsvse.com/thread-9590-1-1.html

Тессеракт OCR

Тессеракт был изначально разработан в период с 1985 по 1994 год в лабораториях HP в Бристоле, Великобритания, и HP в Грили, штат Колорадо, США. В 1996 году Тессеракт был дополнительно модифицирован для портирования на Windows, а в 1998 году частично перешёл на C++. В 2005 году HP сделала Tesseract с открытым исходным кодом. Её разрабатывала Google с 2006 по ноябрь 2018 года.

Tesseract 4 добавляет OCR-движок на основе нейронных сетей (LSTM), который ориентирован на распознавание строк, но при этом поддерживает устаревший движок OCR Tesseract 3, который работает за счёт распознавания шаблонов символов. Используйте режим старого OCR-движка (--oem 0) для обеспечения совместимости с Tesseract 3. Также требуется обучающие файлы данных, поддерживающие старые движки, например, файлы из репозитория tessdata.

Адрес Тессеракта:Вход по гиперссылке виден.
TESSDATA:Вход по гиперссылке виден.
Документация:Вход по гиперссылке виден.

C# вызывает Тессеракт

Что касается использования C# для вызова Tesseract, существуют две широко используемые библиотеки: Tesseract и TesseractOCR, из которых TesseractOCR основан на вторичной разработке библиотеки Tesseract, а код двух открытых библиотек на самом деле схож. Разница в том, что TesseractOCR вызывает последнюю версию (5.5.0) .dll динамической библиотеки связей, поэтому рекомендуетсяTesseractOCR

Код Тессеракта:Вход по гиперссылке виден.
TesseractOCR Code:Вход по гиперссылке виден.

Сначала вам нужно скачать Chinese Simplified (chi_sim.обученные данные) модели. (опущено)

Код таков:


Найдите скриншот из Интернета для проверки, оригинальное изображение выглядит следующим образом:



Результаты распознавания OCR следующие:



(Конец)




Предыдущий:.NET/C# для создания жёсткой ссылки
Следующий:Ускорьте программу машинного обучения на scikit-learn с помощью sklearnex
Отказ:
Всё программное обеспечение, программные материалы или статьи, публикуемые Code Farmer Network, предназначены исключительно для учебных и исследовательских целей; Вышеуказанный контент не должен использоваться в коммерческих или незаконных целях, иначе пользователи несут все последствия. Информация на этом сайте взята из Интернета, и споры по авторским правам не имеют отношения к этому сайту. Вы должны полностью удалить вышеуказанный контент с компьютера в течение 24 часов после загрузки. Если вам нравится программа, пожалуйста, поддержите подлинное программное обеспечение, купите регистрацию и получите лучшие подлинные услуги. Если есть нарушение, пожалуйста, свяжитесь с нами по электронной почте.

Mail To:help@itsvse.com