|
PDF е съкратено от Portable Document Format, което означава "формат за преносим документ", и е файлов формат, разработен от Adobe Systems за обмен на файлове по начин, независим от приложения, операционни системи и хардуер. PDF файловете са базирани на модела на изображения на езика PostScript, който гарантира точни цветове и точни резултати от печата на всеки принтер, което означава, че PDF точно възпроизвежда всеки символ, цвят и изображение от оригинала. Поради сложността на PDF файловите формати, PDF файловете обикновено се манипулират чрез компоненти на трети страни, а тази статия използва itext7. След въвеждането на компонента itext7 чрез NuGet, можете да извлечете текст от PDF файл, използвайки следния код: Примерен код: Имайте предвид, че ако вашият PDF файл е сканирана версия, базирана на изображение, тогава кодът в тази статия не може да извлече текст и ви е нужна OCR технология.
|