Die Grundprinzipien des Deep Learning DBNet

Kleiner Abschaum · Veröffentlicht am 19.01.2025 12:26:21

Originallink:Der Hyperlink-Login ist sichtbar.
Original-Code-Link:Der Hyperlink-Login ist sichtbar.
Die Fortpflanzung ist besser:Der Hyperlink-Login ist sichtbar.

Derzeit lässt sich die Texterkennung grob in zwei Kategorien unterteilen: regressionsbasierte Methoden und segmentierungsbasierte Methoden. Der allgemeine Methodenprozess basierend auf Segmentierung ist im blauen Pfeil in der untenstehenden Abbildung dargestellt: Zuerst wird das Textsegmentierungsergebnis des Bildes über das Netzwerk ausgegeben (Wahrscheinlichkeitsgraph, ob jedes Pixel eine positive Stichprobe ist), der voreingestellte Schwellenwert wird verwendet, um den Segmentierungsergebnisgraphen in einen binären Plot umzuwandeln, und schließlich werden einige Aggregationsoperationen wie das Verbinden von Domänen verwendet, um Pixelergebnisse in Erkennungsergebnisse umzuwandeln.

Aus der obigen Beschreibung geht hervor, dass eine Operation, die Schwellenwerte zur Bestimmung von Vordergrund und Hintergrund verwendet, diese Operation undifferentierbar ist, sodass es nicht möglich ist, das Netzwerk zu nutzen, um diesen Teil des Prozesses für das Training ins Netzwerk zu bringen. Der Prozess wird durch den roten Pfeil im obigen Bild dargestellt.

1. Netzwerkstruktur

Die Netzwerkstruktur in diesem Artikel ist in der folgenden Abbildung dargestellt: Während des Trainingsprozesses, nachdem das Bild ins Netzwerk eingegeben wurde, wird die blaue Merkmalsabbildung in der obigen Abbildung nach der Merkmalsextraktion und dem Upsampling von Fusion und Concat-Operation als F bezeichnet, dann wird die Wahrscheinlichkeitskarte (Wahrscheinlichkeitsabbildung) durch F namens P vorhergesagt und die Schwellenabbildung (Schwellenabbildung) durch F als T bezeichnet, und schließlich wird die approximative Binärabbildung B ^ durch P und T berechnet. Das Textfeld des Inferenzprozesses kann durch einen approximativen Binärgraphen oder Wahrscheinlichkeitsgraphen gewonnen werden.

2. Binäre

2.1 Binarisierung von Standards

2.2 Differenzierbare Binarisierung

Die oben genannte Binarisierungsmethode ist nicht differenzierbar, daher kann sie im Netzwerklernen nicht optimiert werden. Um dieses Problem zu lösen, schlägt diese Arbeit eine approximative Schrittfunktion vor:

Die Ausgabe der obigen Gleichung B ^ stellt den approximativen binären Graphen dar, T ist der Schwellenwert des Netzwerklernens, und k ist ein Faktor, und diese Arbeit ist auf 50 gesetzt. Das Diagramm dieser Funktion ist der obigen Stufenfunktion sehr ähnlich, wie in der Abbildung A in der untenstehenden Abbildung dargestellt.

3. Adaptive Schwelle

Das Obige beschreibt, wie man P nach Erhalt des Wahrscheinlichkeitsgraphen P und des Schwellengraphen T binär in einen approximativen binären Graphen B ^ einführt. Dieser Abschnitt erklärt, wie man die Bezeichnungen Wahrscheinlichkeit P, Schwelle T und binären Graphen B^ bekommt.

3.1 Deformationsfaltung

Da große rezeptive Felder erforderlich sein können, wendet der Artikel die Deformationsfaltung auf ein Netzwerk von ResNet-18 oder ResNet-50 an.

Verlustfunktion

Die im Text verwendete Formel für die Verlustfunktion lautet wie folgt:

schlussfolgern

Original:Der Hyperlink-Login ist sichtbar.

Die Grundprinzipien des Deep Learning DBNet

Verwandte Beiträge

Betrachtete Abschnitte