|
PDF je skratka pre Portable Document Format, čo znamená "portable document format", a je to formát súboru vyvinutý spoločnosťou Adobe Systems na výmenu súborov spôsobom nezávislým od aplikácií, operačných systémov a hardvéru. PDF súbory sú založené na jazykovom obrazovom modeli PostScript, ktorý zaručuje presné farby a presné výsledky tlače na akejkoľvek tlačiarni, čo znamená, že PDF verne reprodukuje každý znak, farbu a obrázok originálu. Vzhľadom na zložitosť PDF formátov sú PDF zvyčajne manipulované cez komponenty tretích strán a tento článok používa itext7. Po zavedení komponentu itext7 cez NuGet môžete text extrahovať z PDF súboru pomocou nasledujúceho kódu: Ukážkový kód: Všimnite si, že ak je váš PDF súbor naskenovanou verziou založenou na obrázku, kód v tomto článku nedokáže extrahovať text a potrebujete technológiu OCR.
|