|
PDF est l’abréviation de Portable Document Format, qui signifie « portable document format », et est un format de fichier développé par Adobe Systems pour l’échange de fichiers de manière indépendante des applications, des systèmes d’exploitation et du matériel. Les fichiers PDF sont basés sur le modèle d’image du langage PostScript, qui garantit des couleurs précises et des résultats d’impression précis sur n’importe quelle imprimante, ce qui signifie que le PDF reproduit fidèlement chaque caractère, couleur et image de l’original. Compte tenu de la complexité des formats de fichiers PDF, les PDF sont généralement manipulés via des composants tiers, et cet article utilise itext7. Après avoir introduit le composant itext7 via NuGet, vous pouvez extraire du texte d’un fichier PDF en utilisant le code suivant : Code exemple : Notez que si votre fichier PDF est une version numérisée basée sur une image, alors le code de cet article ne peut pas extraire de texte, et vous avez besoin de la technologie OCR.
|