|
PDF to skrót od Portable Document Format, co oznacza "przenośny format dokumentu", i jest formatem pliku opracowanym przez Adobe Systems do wymiany plików w sposób niezależny od aplikacji, systemów operacyjnych i sprzętu. Pliki PDF opierają się na modelu obrazów językowych PostScript, który gwarantuje dokładne kolory i wyniki druku na każdej drukarce, co oznacza, że PDF wiernie odtwarza każdy znak, kolor i obraz oryginału. Ze względu na złożoność formatów plików PDF, pliki PDF są zazwyczaj przetwarzane za pomocą komponentów firm trzecich, a ten artykuł wykorzystuje itext7. Po wprowadzeniu komponentu itext7 za pomocą NuGet, możesz wyodrębnić tekst z pliku PDF za pomocą następującego kodu: Przykładowy kod: Zwróć uwagę, że jeśli Twój plik PDF jest zeskanowaną wersją opartą na obrazie, to kod w tym artykule nie potrafi wyodrębnić tekstu i potrzebujesz technologii OCR.
|