Αυτό το άρθρο είναι ένα άρθρο καθρέφτη της αυτόματης μετάφρασης, κάντε κλικ εδώ για να μεταβείτε στο αρχικό άρθρο.

Άποψη: 760|Απάντηση: 0

[Πηγή] Το .NET/C# χρησιμοποιεί αναγνώριση κειμένου Tesseract σε OCR για εικόνες

[Αντιγραφή συνδέσμου]
Δημοσιεύτηκε στις 2025-4-24 09:20:01 | | | |
Απαιτήσεις: Χρησιμοποιήστε την τεχνολογία OCR για να αναγνωρίσετε το κείμενο της εικόνας, εάν περιέχει κάποιο κείμενο, το backend θα περάσει αρχικά την προβολή και θα δώσει προτεραιότητα. Οι απαιτήσεις είναι σχετικά απλές.

Αναθεώρηση:

Το .NET/C# χρησιμοποιεί το FastDeploy για την ανάπτυξη μοντέλων OCR για την αναγνώριση κειμένου
https://www.itsvse.com/thread-10911-1-1.html

Το .NET Core καλεί το Baidu PaddleOCR για την αναγνώριση εικόνων και κειμένων
https://www.itsvse.com/thread-9590-1-1.html

Tesseract OCR

Το Tesseract αναπτύχθηκε αρχικά μεταξύ 1985 και 1994 στα εργαστήρια HP στο Μπρίστολ του Ηνωμένου Βασιλείου και στην HP στο Greeley του Κολοράντο των ΗΠΑ. Το 1996, το Tesseract τροποποιήθηκε περαιτέρω για μεταφορά σε συστήματα Windows και το 1998 έγινε εν μέρει C++. Το 2005, η HP έκανε το Tesseract ανοιχτού κώδικα. Αναπτύχθηκε από την Google από το 2006 έως τον Νοέμβριο του 2018.

Το Tesseract 4 προσθέτει μια μηχανή OCR που βασίζεται σε νευρωνικό δίκτυο (LSTM) που εστιάζει στην αναγνώριση γραμμής, αλλά εξακολουθεί να υποστηρίζει την παλαιού τύπου μηχανή OCR Tesseract 3, η οποία λειτουργεί αναγνωρίζοντας μοτίβα χαρακτήρων. Χρησιμοποιήστε τη λειτουργία μηχανισμού OCR παλαιού τύπου (--oem 0) για να ενεργοποιήσετε τη συμβατότητα με το Tesseract 3. Απαιτεί επίσης αρχεία δεδομένων εκπαίδευσης που υποστηρίζουν παλαιότερες μηχανές, όπως αρχεία από το αποθετήριο tessdata.

Διεύθυνση Tesseract:Η σύνδεση με υπερσύνδεσμο είναι ορατή.
Tessdata:Η σύνδεση με υπερσύνδεσμο είναι ορατή.
Τεκμηρίωση:Η σύνδεση με υπερσύνδεσμο είναι ορατή.

Η C# καλεί το Tesseract

Όσον αφορά τη χρήση της C# για την κλήση του Tesseract, υπάρχουν δύο βιβλιοθήκες που χρησιμοποιούνται συνήθως: η Tesseract και η TesseractOCR, εκ των οποίων το TesseractOCR βασίζεται στη δευτερεύουσα ανάπτυξη της βιβλιοθήκης Tesseract και ο κώδικας των δύο βιβλιοθηκών ανοιχτού κώδικα είναι στην πραγματικότητα παρόμοιος, η διαφορά είναι ότι το TesseractOCR καλεί την τελευταία έκδοση (5.5.0) της βιβλιοθήκης δυναμικών συνδέσμων .dll, επομένως συνιστάταιTesseractOCR

Κωδικός Tesseract:Η σύνδεση με υπερσύνδεσμο είναι ορατή.
Κωδικός TesseractOCR:Η σύνδεση με υπερσύνδεσμο είναι ορατή.

Πρώτα, πρέπει να κατεβάσετε το Chinese Simplified (chi_sim.εκπαιδευμέναδεδομένα) μοντέλο. (παραλείπεται)

Ο κωδικός έχει ως εξής:


Βρείτε ένα στιγμιότυπο οθόνης από το Διαδίκτυο για δοκιμή, η αρχική εικόνα έχει ως εξής:



Τα αποτελέσματα αναγνώρισης OCR είναι τα εξής:



(Τέλος)




Προηγούμενος:.NET/C# για να δημιουργήσετε έναν σκληρό σύνδεσμο
Επόμενος:Επιταχύνετε τη βιβλιοθήκη μηχανικής εκμάθησης scikit-learn με το sklearnex
Αποκήρυξη:
Όλο το λογισμικό, το υλικό προγραμματισμού ή τα άρθρα που δημοσιεύονται από το Code Farmer Network προορίζονται μόνο για μαθησιακούς και ερευνητικούς σκοπούς. Το παραπάνω περιεχόμενο δεν θα χρησιμοποιηθεί για εμπορικούς ή παράνομους σκοπούς, άλλως οι χρήστες θα υποστούν όλες τις συνέπειες. Οι πληροφορίες σε αυτόν τον ιστότοπο προέρχονται από το Διαδίκτυο και οι διαφορές πνευματικών δικαιωμάτων δεν έχουν καμία σχέση με αυτόν τον ιστότοπο. Πρέπει να διαγράψετε εντελώς το παραπάνω περιεχόμενο από τον υπολογιστή σας εντός 24 ωρών από τη λήψη. Εάν σας αρέσει το πρόγραμμα, υποστηρίξτε γνήσιο λογισμικό, αγοράστε εγγραφή και λάβετε καλύτερες γνήσιες υπηρεσίες. Εάν υπάρχει οποιαδήποτε παραβίαση, επικοινωνήστε μαζί μας μέσω email.

Mail To:help@itsvse.com