この記事は機械翻訳のミラー記事です。元の記事にジャンプするにはこちらをクリックしてください。

眺める: 760|答える: 0

[出典] .NET/C#はTesseractを使って画像のテキスト認識をOCRします

[リンクをコピー]
2025年4月24日 09:20:01 に投稿 | | | |
要件:画像テキストを認識するためにOCR技術を使用し、テキストが含まれている場合、バックエンドは最初にスクリーニングを通過し優先順位を付けます。 要件は比較的シンプルです。

復習:

.NET/C#はFastDeployを使用してOCRモデルを展開し、テキストを認識しています
https://www.itsvse.com/thread-10911-1-1.html

.NET CoreはBaidu PaddleOCRを呼び出して画像やテキストを認識します
https://www.itsvse.com/thread-9590-1-1.html

テッセラクトOCR

テッセラクトはもともと1985年から1994年にかけて、イギリス・ブリストルのHP Laboratoriesおよびアメリカ・コロラド州グリーリーのHPで開発されました。 1996年にはWindowsシステムへの移植用にさらに改良され、1998年には部分的にC++化されました。 2005年にHPはテッセラクトをオープンソース化しました。 2006年から2018年11月までGoogleによって開発されました。

Tesseract 4は、線認識に焦点を当てたニューラルネットワーク(LSTM)ベースのOCRエンジンを追加していますが、テッセラクト3のレガシーなTesseract OCRエンジンもサポートしています。このエンジンは文字パターンを認識することで動作します。 Tesseract 3との互換性を有効にするために、レガシーのOCRエンジンモード(--oem 0)を使用してください。 また、tessdataリポジトリのファイルなど、古いエンジンをサポートするトレーニングデータファイルも必要です。

テッセラクトアドレス:ハイパーリンクのログインが見えます。
テスデータ:ハイパーリンクのログインが見えます。
ドキュメンテーション:ハイパーリンクのログインが見えます。

C#はテッセラクトを呼び出します

C#を使ってTesseractを呼び出す場合、一般的に使われているライブラリはTesseractとTesseractOCRの2つあり、TesseractOCRはTesseractライブラリの二次開発に基づいています。両者のコードは実際には似ていますが、TesseractOCRは.dll動的リンクライブラリの最新バージョン(5.5.0)を呼び出すため推奨されていますテッセラクトOCR

テッセラクトコード:ハイパーリンクのログインが見えます。
TesseractOCRコード:ハイパーリンクのログインが見えます。

まず、中国語簡体字をダウンロードする必要があります(chi_sim.traineddata) モデル。 (省略)

コードは以下の通りです:


インターネットでスクリーンショットを探してテストしてください。元の写真は以下の通りです:



OCRの認定結果は以下の通りです:



(終わり)




先の:.NET/C# ファイルでハードリンクを作成するための情報
次に:sklearnexでscikit-learnの機械学習ライブラリを加速させる
免責事項:
Code Farmer Networkが発行するすべてのソフトウェア、プログラミング資料、記事は学習および研究目的のみを目的としています。 上記の内容は商業的または違法な目的で使用されてはならず、そうでなければ利用者はすべての結果を負うことになります。 このサイトの情報はインターネットからのものであり、著作権紛争はこのサイトとは関係ありません。 ダウンロード後24時間以内に上記の内容を完全にパソコンから削除してください。 もしこのプログラムを気に入ったら、正規のソフトウェアを支持し、登録を購入し、より良い本物のサービスを受けてください。 もし侵害があれば、メールでご連絡ください。

Mail To:help@itsvse.com