.NET/C# використовує Tesseract для OCR-розпізнавання тексту для зображень

Маленька покидька · Опубліковано 24.04.2025 09:20:01

Вимоги: Використовуйте технологію OCR для розпізнавання тексту зображення; якщо він містить текст, бекенд спочатку пройде перевірку і надасть пріоритет. Вимоги досить прості.

Огляд:

.NET/C# використовує FastDeploy для розгортання OCR-моделей для розпізнавання тексту
https://www.itsvse.com/thread-10911-1-1.html

.NET Core викликає Baidu PaddleOCR для розпізнавання зображень і текстів
https://www.itsvse.com/thread-9590-1-1.html

Тессеракт OCR

Tesseract спочатку розроблявся між 1985 і 1994 роками в HP Laboratories у Брістолі, Великобританія, та HP у Грілі, Колорадо, США. У 1996 році Тессеракт був додатково модифікований для портування на Windows, а у 1998 році частково перетворили на C++. У 2005 році HP зробила Tesseract відкритим кодом. Її розробляла компанія Google з 2006 по листопад 2018 року.

Tesseract 4 додає OCR-рушій на основі нейронних мереж (LSTM), який зосереджений на розпізнаванні рядків, але все ще підтримує застарілий OCR-двигун Tesseract 3, який працює шляхом розпізнавання шаблонів символів. Використовуйте режим застарілого OCR-двигуна (--oem 0) для забезпечення сумісності з Tesseract 3. Він також вимагає навчальних файлів даних, які підтримують старі рушії, наприклад, файли з репозиторію tessdata.

Адреса Тессеракта:Вхід за гіперпосиланням видно.
tessdata:Вхід за гіперпосиланням видно.
Документації:Вхід за гіперпосиланням видно.

C# викликає Тессеракт

Щодо використання C# для виклику Tesseract, існує дві поширені бібліотеки: Tesseract і TesseractOCR, з яких TesseractOCR базується на вторинній розробці бібліотеки Tesseract, а код двох бібліотек з відкритим кодом насправді схожий, різниця в тому, що TesseractOCR викликає останню версію (5.5.0) бібліотеки .dll динамічного посилання, тому рекомендуєтьсяTesseractOCR。

Код Тессеракта:Вхід за гіперпосиланням видно.
TesseractOCR код:Вхід за гіперпосиланням видно.

Спочатку вам потрібно завантажити Chinese Simplified (chi_sim.traineddata) моделі. (опущено)

Код виглядає так:

Вхід видно.

Знайдіть скріншот з Інтернету для перевірки, оригінальне зображення таке:

Результати визнання OCR такі:

(Кінець)

[Джерело] .NET/C# використовує Tesseract для OCR-розпізнавання тексту для зображень

Пов'язані дописи

Переглянуті розділи