|
PDF je okrajšava za Portable Document Format, kar pomeni "prenosni format dokumenta", in je datotečni format, ki ga je razvil Adobe Systems za izmenjavo datotek na način, ki je neodvisen od aplikacij, operacijskih sistemov in strojne opreme. PDF datoteke temeljijo na slikovnem modelu jezika PostScript, ki zagotavlja natančne barve in natančne tiskarske rezultate na katerem koli tiskalniku, kar pomeni, da PDF zvesto reproducira vsak znak, barvo in sliko izvirnika. Glede na kompleksnost formatov PDF datotek se PDF-ji običajno obdelujejo prek komponent tretjih oseb, ta članek pa uporablja itext7. Po uvedbi komponente itext7 preko NuGeta lahko iz PDF datoteke izvlečete besedilo z naslednjo kodo: Primer kode: Upoštevajte, da če je vaša PDF datoteka skenirana različica na podlagi slike, potem koda v tem članku ne more izluščiti besedila in potrebujete OCR tehnologijo.
|