Cet article est un article miroir de traduction automatique, veuillez cliquer ici pour accéder à l’article original.

Vue: 1800|Répondre: 0

Les principes fondamentaux de l’apprentissage profond DBNet

[Copié le lien]
Publié le 19-01-2025 à 12:26:21 | | | |
Lien original :La connexion hyperlientérée est visible.
Lien du code original :La connexion hyperlientérée est visible.
La reproduction est meilleure :La connexion hyperlientérée est visible.

Actuellement, la détection de texte peut être grossièrement divisée en deux catégories : méthodes basées sur la régression et méthodes basées sur la segmentation. Le processus méthodique général basé sur la segmentation est montré dans la flèche bleue de la figure ci-dessous : d’abord, le résultat de segmentation textuelle de l’image est généré via le réseau (graphique de probabilité, si chaque pixel est un échantillon positif), le seuil prédéfini sert à convertir le graphe de résultat de segmentation en un graphique binaire, et enfin certaines opérations d’agrégation telles que des domaines de connexion sont utilisées pour convertir des résultats au niveau du pixel en résultats de détection.



D’après la description ci-dessus, on peut voir que, puisqu’il existe une opération utilisant des seuils pour déterminer le premier plan et l’arrière-plan, cette opération est indifférenciable, il n’est donc pas possible d’utiliser le réseau pour intégrer cette partie du processus dans le réseau pour l’entraînement. Le processus est montré par la flèche rouge sur l’image ci-dessus.

1. Structure du réseau

La structure du réseau dans cet article est illustrée dans la figure suivante : lors du processus d’entraînement, après que l’image a été saisie dans le réseau, la carte des caractéristiques bleue dans la figure ci-dessus est appelée F après extraction de caractéristiques, suréchantillonnage de fusion et d’opérations de concat, puis la carte de probabilité (carte de probabilité) est prédite par F appelée P et la carte de seuil (application de seuil) est prédite par F s’appelle T, et enfin la carte binaire approximative B ^ est calculée via P et T. La boîte de texte du processus d’inférence peut être obtenue par un graphe binaire approximatif ou un graphe de probabilité.



2. Binaire


2.1 Binarisation des normes



2.2 Binarisation différentiable


La méthode de binarisation ci-dessus n’est pas différentiable, elle ne peut donc pas être optimisée dans l’apprentissage des réseaux. Pour résoudre ce problème, cet article propose une fonction étape approximative :



La sortie de l’équation ci-dessus B ^ représente le graphique binaire approximatif, T est le graphe seuil de l’apprentissage des réseaux, k est un facteur, et cet article est fixé à 50. Le schéma de cette fonction est très similaire à la fonction pas ci-dessus, comme le montre la figure A de la figure ci-dessous.



3. Seuil adaptatif

Ce qui précède décrit comment binariser P en un graphe binaire approximatif B ^ après avoir obtenu le graphe de probabilité P et le graphe seuil T. Cette section explique comment obtenir les labels de Probabilité P, Seuil T et Graphe binaire B^.

3.1 Convolution de déformation

Comme de grands champs récepteurs peuvent être nécessaires, l’article applique la convolution de déformation à un réseau de ResNet-18 ou ResNet-50.



Fonction de perte

La formule de la fonction de perte utilisée dans le texte est la suivante :



déduire




Langue source:La connexion hyperlientérée est visible.




Précédent:La série angulaire 18 (trente) crée un espace de travail
Prochain:Convertir le modèle de palette au format modèle ONNX
Démenti:
Tous les logiciels, supports de programmation ou articles publiés par Code Farmer Network sont uniquement destinés à l’apprentissage et à la recherche ; Le contenu ci-dessus ne doit pas être utilisé à des fins commerciales ou illégales, sinon les utilisateurs assumeront toutes les conséquences. Les informations sur ce site proviennent d’Internet, et les litiges de droits d’auteur n’ont rien à voir avec ce site. Vous devez supprimer complètement le contenu ci-dessus de votre ordinateur dans les 24 heures suivant le téléchargement. Si vous aimez le programme, merci de soutenir un logiciel authentique, d’acheter l’immatriculation et d’obtenir de meilleurs services authentiques. En cas d’infraction, veuillez nous contacter par e-mail.

Mail To:help@itsvse.com