Тази статия е огледална статия за машинен превод, моля, кликнете тук, за да преминете към оригиналната статия.

Изглед: 760|Отговор: 0

[Източник] .NET/C# използва Tesseract за OCR разпознаване на текст за изображения

[Копирай линк]
Публикувано на 2025-4-24 09:20:01 | | | |
Изисквания: Използвайте OCR технология за разпознаване на текст на изображения, ако съдържа текст, бекендът първоначално преминава проверката и дава приоритет. Изискванията са сравнително прости.

Преглед:

.NET/C# използва FastDeploy за внедряване на OCR модели за разпознаване на текст
https://www.itsvse.com/thread-10911-1-1.html

.NET Core извиква Baidu PaddleOCR, за да разпознава изображения и текстове
https://www.itsvse.com/thread-9590-1-1.html

Тессеракт OCR

Тесеракт първоначално е разработен между 1985 и 1994 г. в HP Laboratories в Бристол, Великобритания, и HP в Грили, Колорадо, САЩ. През 1996 г. Тесеракт беше допълнително модифициран за портване към Windows системи, а през 1998 г. беше частично C++изиран. През 2005 г. HP направи Тесеракт с отворен код. Тя е разработена от Google от 2006 до ноември 2018 г.

Tesseract 4 добавя OCR енджин, базиран на невронна мрежа (LSTM), който се фокусира върху разпознаване на линии, но все пак поддържа наследения Tesseract OCR енджин на Tesseract 3, който работи чрез разпознаване на модели на символи. Използвайте наследствения OCR двигателен режим (--oem 0), за да активирате съвместимост с Tesseract 3. Изисква и обучителни файлове с данни, които поддържат по-стари енджини, като файлове от хранилището на tessdata.

Адрес на Тесеракта:Входът към хиперлинк е видим.
Tessdata:Входът към хиперлинк е видим.
Документация:Входът към хиперлинк е видим.

C# извиква Тесеракт

Относно използването на C# за извикване на Tesseract, има две често използвани библиотеки: Tesseract и TesseractOCR, като TesseractOCR е базиран на вторичното развитие на библиотеката Tesseract, а кодът на двете библиотеки с отворен код всъщност е сходен, като разликата е, че TesseractOCR извиква най-новата версия (5.5.0) на .dll динамичната библиотека за връзки, затова се препоръчваTesseractOCR

Код на Тесеракта:Входът към хиперлинк е видим.
TesseractOCR код:Входът към хиперлинк е видим.

Първо, трябва да изтеглите Chinese Simplified (chi_sim.обучени данни) модел. (пропуснато)

Кодът е следният:


Намерете скрийншот от интернет за тест, оригиналната снимка е следната:



Резултатите от OCR разпознаването са следните:



(Край)




Предишен:.NET/C# файл за създаване на твърда връзка
Следващ:Ускорете машинната библиотека на scikit-learn с sklearnex
Отричане:
Целият софтуер, програмни материали или статии, публикувани от Code Farmer Network, са само за учебни и изследователски цели; Горното съдържание не трябва да се използва за търговски или незаконни цели, в противен случай потребителите ще понесат всички последствия. Информацията на този сайт идва от интернет, а споровете за авторски права нямат нищо общо с този сайт. Трябва напълно да изтриете горното съдържание от компютъра си в рамките на 24 часа след изтеглянето. Ако ви харесва програмата, моля, подкрепете оригинален софтуер, купете регистрация и получете по-добри услуги. Ако има нарушение, моля, свържете се с нас по имейл.

Mail To:help@itsvse.com