この記事は機械翻訳のミラー記事です。元の記事にジャンプするにはこちらをクリックしてください。

眺める: 1800|答える: 0

ディープラーニングDBNetの基本原理

[リンクをコピー]
2025年1月19日 12:26:21に投稿 | | | |
元のリンク:ハイパーリンクのログインが見えます。
元のコードリンク:ハイパーリンクのログインが見えます。
繁殖の方が良い:ハイパーリンクのログインが見えます。

現在、テキスト検出は大まかに回帰ベース手法とセグメントベース手法の2つのカテゴリーに分けられます。 セグメントに基づく一般的な手法は、下図の青い矢印に示されています。まず、画像のテキストセグメンテーション結果(確率グラフ、各ピクセルが正のサンプルかどうか)をネットワークを通じて出力し、あらかじめ設定された閾値を用いてセグメンテーション結果グラフをバイナリプロットに変換し、最後にドメインの接続などの集約操作を用いてピクセルレベルの結果を検出結果に変換します。



上記の説明から、前景と背景を決定するために閾値を使う操作が存在するため、この操作は微分不可であり、ネットワークを使ってこのプロセスの部分をネットワークに取り込んで訓練することはできないことがわかります。 この過程は上の画像の赤い矢印で示されています。

1. ネットワーク構造

本論文のネットワーク構造は以下の図に示されています。訓練過程中、画像がネットワークに入力された後、上記の図の青い特徴マップは特徴抽出、アップサンプリング融合、コンカト演算後にFと呼ばれ、その後、確率マップ(確率マップ)をFで予測し、しきい値マップ(しきい値マップ)をTと呼びます。最後に近似的な二値写像B ^はPとTを通じて計算されます。 推論過程のテキストボックスは、近似の二進グラフまたは確率グラフによって得られます。



2. バイナリ


2.1 標準の二分化



2.2 微分可能な二分化


上記の二分化法は微分不可であるため、ネットワーク学習で最適化することはできません。 この問題を解決するために、本論文は近似ステップ関数を提案します。



上記の式B ^の出力は近似二進グラフを表し、Tはネットワーク学習の閾値グラフ、kは因子、本論文は50に設定されています。 この関数の図は、下図の図Aに示されているように、上記のステップ関数と非常によく似ています。



3. 適応閾値

上記では、確率グラフPとしきい値グラフTを得た後、近似的な2進グラフB^にPを2進数で変換する方法を説明しています。 このセクションでは、確率P、しきい値T、バイナリグラフB^のラベルを取得する方法について説明します。

3.1 変形畳み込み

大きな受容野が必要となる可能性があるため、本記事ではResNet-18またはResNet-50のネットワークに変形畳み込みを適用しています。



損失関数

本文で使用されている損失関数の公式は以下の通りです:



推測




翻訳元:ハイパーリンクのログインが見えます。




先の:Angular 18シリーズ(30)はワークスペースを作成します
次に:パドルモデルをONNXモデル形式に変換します
免責事項:
Code Farmer Networkが発行するすべてのソフトウェア、プログラミング資料、記事は学習および研究目的のみを目的としています。 上記の内容は商業的または違法な目的で使用されてはならず、そうでなければ利用者はすべての結果を負うことになります。 このサイトの情報はインターネットからのものであり、著作権紛争はこのサイトとは関係ありません。 ダウンロード後24時間以内に上記の内容を完全にパソコンから削除してください。 もしこのプログラムを気に入ったら、正規のソフトウェアを支持し、登録を購入し、より良い本物のサービスを受けてください。 もし侵害があれば、メールでご連絡ください。

Mail To:help@itsvse.com