|
PDF — это сокращение от Portable Document Format, что означает «формат портативного документа», и является файловым форматом, разработанным компанией Adobe Systems для обмена файлами, независимым от приложений, операционных систем и аппаратного обеспечения. PDF-файлы основаны на модели изображения на языке PostScript, которая гарантирует точные цвета и результаты печати на любом принтере, то есть PDF точно воспроизводит каждый символ, цвет и изображение оригинала. Учитывая сложность форматов PDF, PDF обычно манипулируются с помощью сторонних компонентов, и в этой статье используется itext7. После внедрения компонента itext7 через NuGet вы можете извлечь текст из PDF-файла с помощью следующего кода: Пример кода: Обратите внимание, что если ваш PDF-файл — это отсканированная версия на основе изображения, то код в этой статье не может извлечь текст, и вам нужна технология OCR.
|