|
PDF ist die Abkürzung für Portable Document Format, was "portable document format" bedeutet, und ist ein Dateiformat, das von Adobe Systems für den Dateiaustausch entwickelt wurde, unabhängig von Anwendungen, Betriebssystemen und Hardware. PDF-Dateien basieren auf dem PostScript-Sprachbildmodell, das genaue Farben und genaue Druckergebnisse auf jedem Drucker garantiert, was bedeutet, dass das PDF jedes Zeichen, jede Farbe und jedes Bild des Originals originalgetreu reproduziert. Angesichts der Komplexität von PDF-Dateiformaten werden PDFs im Allgemeinen über Komponenten von Drittanbietern bearbeitet, und dieser Artikel verwendet itext7. Nachdem Sie die itext7-Komponente über NuGet eingeführt haben, können Sie Text aus einer PDF-Datei mit folgendem Code extrahieren: Beispielcode: Beachten Sie, dass wenn Ihre PDF-Datei eine gescannte Version auf Basis eines Bildes ist, der Code in diesem Artikel den Text nicht extrahieren kann und Sie OCR-Technologie benötigen.
|