|
PDF — це скорочення від Portable Document Format, що означає «portable document format», і є файловим форматом, розробленим компанією Adobe Systems для обміну файлами незалежно від додатків, операційних систем і апаратного забезпечення. PDF-файли базуються на моделі зображень мовою PostScript, яка гарантує точні кольори та результати друку на будь-якому принтері, тобто PDF точно відтворює кожен символ, колір і зображення оригіналу. З огляду на складність форматів PDF, PDF зазвичай обробляються сторонніми компонентами, і ця стаття використовує itext7. Після впровадження компонента itext7 через NuGet ви можете витягти текст із PDF-файлу за допомогою наступного коду: Приклад коду: Зверніть увагу, що якщо ваш PDF-файл — це відсканована версія на основі зображення, то код у цій статті не може витягувати текст, і вам потрібна технологія OCR.
|