|
PDF är en förkortning av Portable Document Format, vilket betyder "portabelt dokumentformat", och är ett filformat utvecklat av Adobe Systems för filutbyte på ett sätt som är oberoende av applikationer, operativsystem och hårdvara. PDF-filer baseras på PostScript-språkets bildmodell, som garanterar korrekta färger och korrekta utskriftsresultat på vilken skrivare som helst, vilket innebär att PDF:en troget återger varje tecken, färg och bild av originalet. Med tanke på PDF-filformatens komplexitet manipuleras PDF-filer vanligtvis via tredjepartskomponenter, och denna artikel använder itext7. Efter att ha introducerat itext7-komponenten via NuGet kan du extrahera text från en PDF-fil med följande kod: Exempelkod: Observera att om din PDF-fil är en skannad version baserad på en bild, så kan koden i denna artikel inte extrahera text, och du behöver OCR-teknik.
|