Ця стаття є дзеркальною статтею машинного перекладу, будь ласка, натисніть тут, щоб перейти до оригінальної статті.

Вид: 760|Відповідь: 0

[Джерело] .NET/C# використовує Tesseract для OCR-розпізнавання тексту для зображень

[Копіювати посилання]
Опубліковано 2025-4-24 09:20:01 | | | |
Вимоги: Використовуйте технологію OCR для розпізнавання тексту зображення; якщо він містить текст, бекенд спочатку пройде перевірку і надасть пріоритет. Вимоги досить прості.

Огляд:

.NET/C# використовує FastDeploy для розгортання OCR-моделей для розпізнавання тексту
https://www.itsvse.com/thread-10911-1-1.html

.NET Core викликає Baidu PaddleOCR для розпізнавання зображень і текстів
https://www.itsvse.com/thread-9590-1-1.html

Тессеракт OCR

Tesseract спочатку розроблявся між 1985 і 1994 роками в HP Laboratories у Брістолі, Великобританія, та HP у Грілі, Колорадо, США. У 1996 році Тессеракт був додатково модифікований для портування на Windows, а у 1998 році частково перетворили на C++. У 2005 році HP зробила Tesseract відкритим кодом. Її розробляла компанія Google з 2006 по листопад 2018 року.

Tesseract 4 додає OCR-рушій на основі нейронних мереж (LSTM), який зосереджений на розпізнаванні рядків, але все ще підтримує застарілий OCR-двигун Tesseract 3, який працює шляхом розпізнавання шаблонів символів. Використовуйте режим застарілого OCR-двигуна (--oem 0) для забезпечення сумісності з Tesseract 3. Він також вимагає навчальних файлів даних, які підтримують старі рушії, наприклад, файли з репозиторію tessdata.

Адреса Тессеракта:Вхід за гіперпосиланням видно.
tessdata:Вхід за гіперпосиланням видно.
Документації:Вхід за гіперпосиланням видно.

C# викликає Тессеракт

Щодо використання C# для виклику Tesseract, існує дві поширені бібліотеки: Tesseract і TesseractOCR, з яких TesseractOCR базується на вторинній розробці бібліотеки Tesseract, а код двох бібліотек з відкритим кодом насправді схожий, різниця в тому, що TesseractOCR викликає останню версію (5.5.0) бібліотеки .dll динамічного посилання, тому рекомендуєтьсяTesseractOCR

Код Тессеракта:Вхід за гіперпосиланням видно.
TesseractOCR код:Вхід за гіперпосиланням видно.

Спочатку вам потрібно завантажити Chinese Simplified (chi_sim.traineddata) моделі. (опущено)

Код виглядає так:


Знайдіть скріншот з Інтернету для перевірки, оригінальне зображення таке:



Результати визнання OCR такі:



(Кінець)




Попередній:.NET/C# для створення жорсткого посилання
Наступний:Прискоріть програму машинного навчання на scikit-learn за допомогою sklearnex
Застереження:
Усе програмне забезпечення, програмні матеріали або статті, опубліковані Code Farmer Network, призначені лише для навчання та досліджень; Вищезазначений контент не повинен використовуватися в комерційних чи незаконних цілях, інакше користувачі несуть усі наслідки. Інформація на цьому сайті надходить з Інтернету, і спори щодо авторських прав не мають до цього сайту. Ви повинні повністю видалити вищезазначений контент зі свого комп'ютера протягом 24 годин після завантаження. Якщо вам подобається програма, будь ласка, підтримуйте справжнє програмне забезпечення, купуйте реєстрацію та отримайте кращі справжні послуги. Якщо є будь-яке порушення, будь ласка, зв'яжіться з нами електронною поштою.

Mail To:help@itsvse.com