|
PDF on lühend sõnadest Portable Document Format, mis tähendab "kaasaskantava dokumendi formaat", ning on Adobe Systems'i poolt välja töötatud failiformaat failivahetuseks viisil, mis on sõltumatu rakendustest, operatsioonisüsteemidest ja riistvarast. PDF-failid põhinevad PostScript keele pildimudelil, mis tagab täpsed värvid ja trükitulemused igal printeril, mis tähendab, et PDF taastab truult iga originaali tähemärgi, värvi ja pildi. Arvestades PDF-failivormingute keerukust, manipuleeritakse PDF-e tavaliselt kolmandate osapoolte komponentide kaudu ning selles artiklis kasutatakse itext7. Pärast itext7 komponendi tutvustamist NuGetis saad PDF-failist teksti välja võtta järgmise koodiga: Näidiskood: Pane tähele, et kui sinu PDF-fail on skaneeritud versioon, mis põhineb pildil, siis selle artikli kood ei suuda teksti välja võtta ja sul on vaja OCR-tehnoloogiat.
|