|
PDF je zkratka pro Portable Document Format, což znamená "přenosný formát dokumentu", a je to formát souboru vyvinutý společností Adobe Systems pro výměnu souborů způsobem nezávislým na aplikacích, operačních systémech a hardwaru. PDF soubory jsou založeny na modelu obrazu jazyka PostScript, který zaručuje přesné barvy a přesné tiskové výsledky na jakékoli tiskárně, což znamená, že PDF věrně reprodukuje každý znak, barvu a obrázek originálu. Vzhledem ke složitosti formátů PDF jsou PDF obvykle zpracovávány pomocí třetích stran a tento článek používá itext7. Po zavedení komponenty itext7 přes NuGet můžete text extrahovat z PDF souboru pomocí následujícího kódu: Ukázkový kód: Všimněte si, že pokud je váš PDF soubor naskenovanou verzí založenou na obrázku, pak kód v tomto článku nemůže extrahovat text a potřebujete technologii OCR.
|