C#(.NET Core対応)を使ってPDFファイルからすべてのテキストを抽出します。

ズモリ775 · 掲載地 2022/06/29 15:31:16

PDFはPortable Document Formatの略で、「ポータブルドキュメントフォーマット」を意味し、Adobe Systemsがアプリケーション、オペレーティングシステム、ハードウェアに依存しない形でファイル交換のために開発したファイル形式です。 PDFファイルはPostScript言語イメージモデルに基づいており、どのプリンターでも正確な色と印刷結果を保証するため、PDFは元のすべての文字、色、画像を忠実に再現します。

PDFファイル形式の複雑さを考慮すると、PDFは一般的にサードパーティのコンポーネントを通じて操作されており、この記事ではitext7を使用しています。

公式ウェブサイト:ハイパーリンクのログインが見えます。

NuGet:ハイパーリンクのログインが見えます。

NuGetを通じてitext7コンポーネントを導入した後、以下のコードを使ってPDFファイルからテキストを抽出できます。

ログインが見えます。

サンプルコード:

ログインが見えます。

なお、PDFファイルが画像を基にスキャンされたバージョンの場合、この記事のコードではテキストを抽出できず、OCR技術が必要です。

トビウオ · 掲載地 2022/06/30 21:35:46

学ぶことを学びましょう。

リッタースター · 掲載地 2022/07/28 9:00:24

覚えてみろ

痕跡もなく心を奪う · 掲載地 2022/10/13 13:43:30

正式に必要だ、学べ!~~~~~~」

mmxx0212 · 掲載地 2022/10/14 9:37:59

C#を使ってPDFファイルからすべてのテキストを抽出します

[コンソールプログラム] C#(.NET Core対応)を使ってPDFファイルからすべてのテキストを抽出します。

閲覧したセクション