|
PDF este prescurtarea de la Portable Document Format, care înseamnă "format de document portabil", și este un format de fișier dezvoltat de Adobe Systems pentru schimbul de fișiere într-un mod independent de aplicații, sisteme de operare și hardware. Fișierele PDF se bazează pe modelul imaginii lingvistice PostScript, care garantează culori și rezultate de imprimare precise pe orice imprimantă, ceea ce înseamnă că PDF-ul reproduce fidel fiecare caracter, culoare și imagine a originalului. Având în vedere complexitatea formatelor de fișiere PDF, PDF-urile sunt în general manipulate prin componente terțe, iar acest articol folosește itext7. După introducerea componentei itext7 prin NuGet, poți extrage text dintr-un fișier PDF folosind următorul cod: Cod exemplu: Reține că dacă fișierul tău PDF este o versiune scanată bazată pe o imagine, atunci codul din acest articol nu poate extrage text, iar tu ai nevoie de tehnologie OCR.
|