Το .NET/C# χρησιμοποιεί αναγνώριση κειμένου Tesseract σε OCR για εικόνες

Μικρά αποβράσματα · Δημοσιεύτηκε στις 24/4/2025 9:20:01 π.μ.

Απαιτήσεις: Χρησιμοποιήστε την τεχνολογία OCR για να αναγνωρίσετε το κείμενο της εικόνας, εάν περιέχει κάποιο κείμενο, το backend θα περάσει αρχικά την προβολή και θα δώσει προτεραιότητα. Οι απαιτήσεις είναι σχετικά απλές.

Αναθεώρηση:

Το .NET/C# χρησιμοποιεί το FastDeploy για την ανάπτυξη μοντέλων OCR για την αναγνώριση κειμένου
https://www.itsvse.com/thread-10911-1-1.html

Το .NET Core καλεί το Baidu PaddleOCR για την αναγνώριση εικόνων και κειμένων
https://www.itsvse.com/thread-9590-1-1.html

Tesseract OCR

Το Tesseract αναπτύχθηκε αρχικά μεταξύ 1985 και 1994 στα εργαστήρια HP στο Μπρίστολ του Ηνωμένου Βασιλείου και στην HP στο Greeley του Κολοράντο των ΗΠΑ. Το 1996, το Tesseract τροποποιήθηκε περαιτέρω για μεταφορά σε συστήματα Windows και το 1998 έγινε εν μέρει C++. Το 2005, η HP έκανε το Tesseract ανοιχτού κώδικα. Αναπτύχθηκε από την Google από το 2006 έως τον Νοέμβριο του 2018.

Το Tesseract 4 προσθέτει μια μηχανή OCR που βασίζεται σε νευρωνικό δίκτυο (LSTM) που εστιάζει στην αναγνώριση γραμμής, αλλά εξακολουθεί να υποστηρίζει την παλαιού τύπου μηχανή OCR Tesseract 3, η οποία λειτουργεί αναγνωρίζοντας μοτίβα χαρακτήρων. Χρησιμοποιήστε τη λειτουργία μηχανισμού OCR παλαιού τύπου (--oem 0) για να ενεργοποιήσετε τη συμβατότητα με το Tesseract 3. Απαιτεί επίσης αρχεία δεδομένων εκπαίδευσης που υποστηρίζουν παλαιότερες μηχανές, όπως αρχεία από το αποθετήριο tessdata.

Διεύθυνση Tesseract:Η σύνδεση με υπερσύνδεσμο είναι ορατή.
Tessdata:Η σύνδεση με υπερσύνδεσμο είναι ορατή.
Τεκμηρίωση:Η σύνδεση με υπερσύνδεσμο είναι ορατή.

Η C# καλεί το Tesseract

Όσον αφορά τη χρήση της C# για την κλήση του Tesseract, υπάρχουν δύο βιβλιοθήκες που χρησιμοποιούνται συνήθως: η Tesseract και η TesseractOCR, εκ των οποίων το TesseractOCR βασίζεται στη δευτερεύουσα ανάπτυξη της βιβλιοθήκης Tesseract και ο κώδικας των δύο βιβλιοθηκών ανοιχτού κώδικα είναι στην πραγματικότητα παρόμοιος, η διαφορά είναι ότι το TesseractOCR καλεί την τελευταία έκδοση (5.5.0) της βιβλιοθήκης δυναμικών συνδέσμων .dll, επομένως συνιστάταιTesseractOCR。

Κωδικός Tesseract:Η σύνδεση με υπερσύνδεσμο είναι ορατή.
Κωδικός TesseractOCR:Η σύνδεση με υπερσύνδεσμο είναι ορατή.

Πρώτα, πρέπει να κατεβάσετε το Chinese Simplified (chi_sim.εκπαιδευμέναδεδομένα) μοντέλο. (παραλείπεται)

Ο κωδικός έχει ως εξής:

Η σύνδεση είναι ορατή.

Βρείτε ένα στιγμιότυπο οθόνης από το Διαδίκτυο για δοκιμή, η αρχική εικόνα έχει ως εξής:

Τα αποτελέσματα αναγνώρισης OCR είναι τα εξής:

(Τέλος)

[Πηγή] Το .NET/C# χρησιμοποιεί αναγνώριση κειμένου Tesseract σε OCR για εικόνες

σχετικές αναρτήσεις

Ενότητες που προβλήθηκαν