Les principes fondamentaux de l’apprentissage profond DBNet

Petite ordure · Publié sur 19/01/2025 12:26:21

Lien original :La connexion hyperlientérée est visible.
Lien du code original :La connexion hyperlientérée est visible.
La reproduction est meilleure :La connexion hyperlientérée est visible.

Actuellement, la détection de texte peut être grossièrement divisée en deux catégories : méthodes basées sur la régression et méthodes basées sur la segmentation. Le processus méthodique général basé sur la segmentation est montré dans la flèche bleue de la figure ci-dessous : d’abord, le résultat de segmentation textuelle de l’image est généré via le réseau (graphique de probabilité, si chaque pixel est un échantillon positif), le seuil prédéfini sert à convertir le graphe de résultat de segmentation en un graphique binaire, et enfin certaines opérations d’agrégation telles que des domaines de connexion sont utilisées pour convertir des résultats au niveau du pixel en résultats de détection.

D’après la description ci-dessus, on peut voir que, puisqu’il existe une opération utilisant des seuils pour déterminer le premier plan et l’arrière-plan, cette opération est indifférenciable, il n’est donc pas possible d’utiliser le réseau pour intégrer cette partie du processus dans le réseau pour l’entraînement. Le processus est montré par la flèche rouge sur l’image ci-dessus.

1. Structure du réseau

La structure du réseau dans cet article est illustrée dans la figure suivante : lors du processus d’entraînement, après que l’image a été saisie dans le réseau, la carte des caractéristiques bleue dans la figure ci-dessus est appelée F après extraction de caractéristiques, suréchantillonnage de fusion et d’opérations de concat, puis la carte de probabilité (carte de probabilité) est prédite par F appelée P et la carte de seuil (application de seuil) est prédite par F s’appelle T, et enfin la carte binaire approximative B ^ est calculée via P et T. La boîte de texte du processus d’inférence peut être obtenue par un graphe binaire approximatif ou un graphe de probabilité.

2. Binaire

2.1 Binarisation des normes

2.2 Binarisation différentiable

La méthode de binarisation ci-dessus n’est pas différentiable, elle ne peut donc pas être optimisée dans l’apprentissage des réseaux. Pour résoudre ce problème, cet article propose une fonction étape approximative :

La sortie de l’équation ci-dessus B ^ représente le graphique binaire approximatif, T est le graphe seuil de l’apprentissage des réseaux, k est un facteur, et cet article est fixé à 50. Le schéma de cette fonction est très similaire à la fonction pas ci-dessus, comme le montre la figure A de la figure ci-dessous.

3. Seuil adaptatif

Ce qui précède décrit comment binariser P en un graphe binaire approximatif B ^ après avoir obtenu le graphe de probabilité P et le graphe seuil T. Cette section explique comment obtenir les labels de Probabilité P, Seuil T et Graphe binaire B^.

3.1 Convolution de déformation

Comme de grands champs récepteurs peuvent être nécessaires, l’article applique la convolution de déformation à un réseau de ResNet-18 ou ResNet-50.

Fonction de perte

La formule de la fonction de perte utilisée dans le texte est la suivante :

déduire

Langue source:La connexion hyperlientérée est visible.

Les principes fondamentaux de l’apprentissage profond DBNet

Articles connexes

Sections vues