|
PDF is een afkorting van Portable Document Format, wat "draagbaar documentformaat" betekent, en is een bestandsformaat ontwikkeld door Adobe Systems voor bestandsuitwisseling op een manier die onafhankelijk is van applicaties, besturingssystemen en hardware. PDF-bestanden zijn gebaseerd op het PostScript-taalmodel, dat nauwkeurige kleuren en nauwkeurige printresultaten op elke printer garandeert, wat betekent dat de PDF elk karakter, elke kleur en afbeelding van het origineel getrouw reproduceert. Gezien de complexiteit van PDF-bestandsformaten worden PDF's over het algemeen bewerkt via componenten van derden, en dit artikel gebruikt itext7. Na het introduceren van de itext7-component via NuGet kun je tekst uit een PDF-bestand extraheren met de volgende code: Voorbeeldcode: Let op: als je PDF-bestand een gescande versie is gebaseerd op een afbeelding, kan de code in dit artikel geen tekst extraheren en heb je OCR-technologie nodig.
|