|
PDF es la abreviatura de Portable Document Format, que significa "formato de documento portátil", y es un formato de archivo desarrollado por Adobe Systems para el intercambio de archivos de una manera independiente de aplicaciones, sistemas operativos y hardware. Los archivos PDF se basan en el modelo de imagen del lenguaje PostScript, que garantiza colores precisos y resultados de impresión precisos en cualquier impresora, lo que significa que el PDF reproduce fielmente cada carácter, color e imagen del original. Dada la complejidad de los formatos de archivo PDF, los PDFs suelen ser manipulados mediante componentes de terceros, y este artículo utiliza itext7. Tras introducir el componente itext7 a través de NuGet, puedes extraer texto de un archivo PDF usando el siguiente código: Código de ejemplo: Ten en cuenta que si tu archivo PDF es una versión escaneada basada en una imagen, entonces el código de este artículo no puede extraer texto y necesitas tecnología OCR.
|