Απαιτήσεις: Χρησιμοποιήστε την τεχνολογία OCR για να αναγνωρίσετε το κείμενο της εικόνας, εάν περιέχει κάποιο κείμενο, το backend θα περάσει αρχικά την προβολή και θα δώσει προτεραιότητα. Οι απαιτήσεις είναι σχετικά απλές.
Αναθεώρηση:
Tesseract OCR
Το Tesseract αναπτύχθηκε αρχικά μεταξύ 1985 και 1994 στα εργαστήρια HP στο Μπρίστολ του Ηνωμένου Βασιλείου και στην HP στο Greeley του Κολοράντο των ΗΠΑ. Το 1996, το Tesseract τροποποιήθηκε περαιτέρω για μεταφορά σε συστήματα Windows και το 1998 έγινε εν μέρει C++. Το 2005, η HP έκανε το Tesseract ανοιχτού κώδικα. Αναπτύχθηκε από την Google από το 2006 έως τον Νοέμβριο του 2018.
Το Tesseract 4 προσθέτει μια μηχανή OCR που βασίζεται σε νευρωνικό δίκτυο (LSTM) που εστιάζει στην αναγνώριση γραμμής, αλλά εξακολουθεί να υποστηρίζει την παλαιού τύπου μηχανή OCR Tesseract 3, η οποία λειτουργεί αναγνωρίζοντας μοτίβα χαρακτήρων. Χρησιμοποιήστε τη λειτουργία μηχανισμού OCR παλαιού τύπου (--oem 0) για να ενεργοποιήσετε τη συμβατότητα με το Tesseract 3. Απαιτεί επίσης αρχεία δεδομένων εκπαίδευσης που υποστηρίζουν παλαιότερες μηχανές, όπως αρχεία από το αποθετήριο tessdata.
Διεύθυνση Tesseract:Η σύνδεση με υπερσύνδεσμο είναι ορατή. Tessdata:Η σύνδεση με υπερσύνδεσμο είναι ορατή. Τεκμηρίωση:Η σύνδεση με υπερσύνδεσμο είναι ορατή.
Η C# καλεί το Tesseract
Όσον αφορά τη χρήση της C# για την κλήση του Tesseract, υπάρχουν δύο βιβλιοθήκες που χρησιμοποιούνται συνήθως: η Tesseract και η TesseractOCR, εκ των οποίων το TesseractOCR βασίζεται στη δευτερεύουσα ανάπτυξη της βιβλιοθήκης Tesseract και ο κώδικας των δύο βιβλιοθηκών ανοιχτού κώδικα είναι στην πραγματικότητα παρόμοιος, η διαφορά είναι ότι το TesseractOCR καλεί την τελευταία έκδοση (5.5.0) της βιβλιοθήκης δυναμικών συνδέσμων .dll, επομένως συνιστάταιTesseractOCR。
Κωδικός Tesseract:Η σύνδεση με υπερσύνδεσμο είναι ορατή. Κωδικός TesseractOCR:Η σύνδεση με υπερσύνδεσμο είναι ορατή.
Πρώτα, πρέπει να κατεβάσετε το Chinese Simplified (chi_sim.εκπαιδευμέναδεδομένα) μοντέλο. (παραλείπεται)
Ο κωδικός έχει ως εξής:
Βρείτε ένα στιγμιότυπο οθόνης από το Διαδίκτυο για δοκιμή, η αρχική εικόνα έχει ως εξής:
Τα αποτελέσματα αναγνώρισης OCR είναι τα εξής:
(Τέλος) |