|
Το PDF είναι συντομογραφία του Portable Document Format, που σημαίνει "φορητή μορφή εγγράφου" και είναι μια μορφή αρχείου που αναπτύχθηκε από την Adobe Systems για ανταλλαγή αρχείων με τρόπο που είναι ανεξάρτητος από εφαρμογές, λειτουργικά συστήματα και υλικό. Τα αρχεία PDF βασίζονται στο μοντέλο εικόνας της γλώσσας PostScript, το οποίο εγγυάται ακριβή χρώματα και ακριβή αποτελέσματα εκτύπωσης σε οποιονδήποτε εκτυπωτή, πράγμα που σημαίνει ότι το PDF αναπαράγει πιστά κάθε χαρακτήρα, χρώμα και εικόνα του πρωτοτύπου. Λόγω της πολυπλοκότητας των μορφών αρχείων PDF, ο χειρισμός των PDF γίνεται γενικά μέσω στοιχείων τρίτων και αυτό το άρθρο χρησιμοποιεί το itext7. Αφού εισαγάγετε το στοιχείο itext7 μέσω του NuGet, μπορείτε να εξαγάγετε κείμενο από ένα αρχείο PDF χρησιμοποιώντας τον ακόλουθο κώδικα: Δείγμα κώδικα: Σημειώστε ότι εάν το αρχείο PDF σας είναι μια σαρωμένη έκδοση που βασίζεται σε μια εικόνα, τότε ο κώδικας σε αυτό το άρθρο δεν μπορεί να εξαγάγει κείμενο και χρειάζεστε τεχνολογία OCR.
|