ディープラーニングDBNetの基本原理

クズども · 掲載地 2025/01/19 12:26:21

元のリンク:ハイパーリンクのログインが見えます。
元のコードリンク:ハイパーリンクのログインが見えます。
繁殖の方が良い:ハイパーリンクのログインが見えます。

現在、テキスト検出は大まかに回帰ベース手法とセグメントベース手法の2つのカテゴリーに分けられます。セグメントに基づく一般的な手法は、下図の青い矢印に示されています。まず、画像のテキストセグメンテーション結果(確率グラフ、各ピクセルが正のサンプルかどうか)をネットワークを通じて出力し、あらかじめ設定された閾値を用いてセグメンテーション結果グラフをバイナリプロットに変換し、最後にドメインの接続などの集約操作を用いてピクセルレベルの結果を検出結果に変換します。

上記の説明から、前景と背景を決定するために閾値を使う操作が存在するため、この操作は微分不可であり、ネットワークを使ってこのプロセスの部分をネットワークに取り込んで訓練することはできないことがわかります。この過程は上の画像の赤い矢印で示されています。

1. ネットワーク構造

本論文のネットワーク構造は以下の図に示されています。訓練過程中、画像がネットワークに入力された後、上記の図の青い特徴マップは特徴抽出、アップサンプリング融合、コンカト演算後にFと呼ばれ、その後、確率マップ(確率マップ)をFで予測し、しきい値マップ(しきい値マップ)をTと呼びます。最後に近似的な二値写像B ^はPとTを通じて計算されます。推論過程のテキストボックスは、近似の二進グラフまたは確率グラフによって得られます。

2. バイナリ

2.1 標準の二分化

2.2 微分可能な二分化

上記の二分化法は微分不可であるため、ネットワーク学習で最適化することはできません。この問題を解決するために、本論文は近似ステップ関数を提案します。

上記の式B ^の出力は近似二進グラフを表し、Tはネットワーク学習の閾値グラフ、kは因子、本論文は50に設定されています。この関数の図は、下図の図Aに示されているように、上記のステップ関数と非常によく似ています。

3. 適応閾値

上記では、確率グラフPとしきい値グラフTを得た後、近似的な2進グラフB^にPを2進数で変換する方法を説明しています。このセクションでは、確率P、しきい値T、バイナリグラフB^のラベルを取得する方法について説明します。

3.1 変形畳み込み

大きな受容野が必要となる可能性があるため、本記事ではResNet-18またはResNet-50のネットワークに変形畳み込みを適用しています。

損失関数

本文で使用されている損失関数の公式は以下の通りです:

推測

翻訳元：ハイパーリンクのログインが見えます。

ディープラーニングDBNetの基本原理

関連記事

閲覧したセクション