|
PDF é a abreviação de Portable Document Format, que significa "formato de documento portátil", e é um formato de arquivo desenvolvido pela Adobe Systems para troca de arquivos de forma independente de aplicações, sistemas operacionais e hardware. Os arquivos PDF são baseados no modelo de imagem da linguagem PostScript, que garante cores precisas e resultados de impressão precisos em qualquer impressora, o que significa que o PDF reproduz fielmente cada caractere, cor e imagem do original. Considerando a complexidade dos formatos de arquivo PDF, os PDFs geralmente são manipulados por meio de componentes de terceiros, e este artigo utiliza itext7. Após introduzir o componente itext7 pelo NuGet, você pode extrair texto de um arquivo PDF usando o seguinte código: Código de exemplo: Note que, se seu arquivo PDF for uma versão escaneada baseada em uma imagem, então o código deste artigo não pode extrair texto, e você precisa da tecnologia OCR.
|