|
PDF on lyhenne sanoista Portable Document Format, joka tarkoittaa "portable document formatia", ja se on Adobe Systemsin kehittämä tiedostomuoto, joka on suunniteltu tiedostonvaihtoon tavalla, joka on riippumaton sovelluksista, käyttöjärjestelmistä ja laitteistosta. PDF-tiedostot perustuvat PostScript-kieliseen kuvamalliin, joka takaa tarkat värit ja tarkat tulostustulokset millä tahansa tulostimella, eli PDF toistaa uskollisesti jokaisen alkuperäisen merkin, värin ja kuvan. PDF-tiedostomuotojen monimutkaisuuden vuoksi PDF-tiedostoja käsitellään yleensä kolmannen osapuolen komponenttien kautta, ja tässä artikkelissa käytetään itext7. Kun itext7-komponentti on otettu käyttöön NuGetin kautta, voit purkaa tekstiä PDF-tiedostosta seuraavalla koodilla: Esimerkkikoodi: Huomaa, että jos PDF-tiedostosi on skannattu versio kuvan perusteella, tämän artikkelin koodi ei voi poimia tekstiä, ja tarvitset OCR-teknologiaa.
|