Dieser Artikel ist ein Spiegelartikel der maschinellen Übersetzung, bitte klicken Sie hier, um zum Originalartikel zu springen.

Ansehen: 1800|Antwort: 0

Die Grundprinzipien des Deep Learning DBNet

[Link kopieren]
Veröffentlicht am 19.01.2025, 12:26:21 | | | |
Originallink:Der Hyperlink-Login ist sichtbar.
Original-Code-Link:Der Hyperlink-Login ist sichtbar.
Die Fortpflanzung ist besser:Der Hyperlink-Login ist sichtbar.

Derzeit lässt sich die Texterkennung grob in zwei Kategorien unterteilen: regressionsbasierte Methoden und segmentierungsbasierte Methoden. Der allgemeine Methodenprozess basierend auf Segmentierung ist im blauen Pfeil in der untenstehenden Abbildung dargestellt: Zuerst wird das Textsegmentierungsergebnis des Bildes über das Netzwerk ausgegeben (Wahrscheinlichkeitsgraph, ob jedes Pixel eine positive Stichprobe ist), der voreingestellte Schwellenwert wird verwendet, um den Segmentierungsergebnisgraphen in einen binären Plot umzuwandeln, und schließlich werden einige Aggregationsoperationen wie das Verbinden von Domänen verwendet, um Pixelergebnisse in Erkennungsergebnisse umzuwandeln.



Aus der obigen Beschreibung geht hervor, dass eine Operation, die Schwellenwerte zur Bestimmung von Vordergrund und Hintergrund verwendet, diese Operation undifferentierbar ist, sodass es nicht möglich ist, das Netzwerk zu nutzen, um diesen Teil des Prozesses für das Training ins Netzwerk zu bringen. Der Prozess wird durch den roten Pfeil im obigen Bild dargestellt.

1. Netzwerkstruktur

Die Netzwerkstruktur in diesem Artikel ist in der folgenden Abbildung dargestellt: Während des Trainingsprozesses, nachdem das Bild ins Netzwerk eingegeben wurde, wird die blaue Merkmalsabbildung in der obigen Abbildung nach der Merkmalsextraktion und dem Upsampling von Fusion und Concat-Operation als F bezeichnet, dann wird die Wahrscheinlichkeitskarte (Wahrscheinlichkeitsabbildung) durch F namens P vorhergesagt und die Schwellenabbildung (Schwellenabbildung) durch F als T bezeichnet, und schließlich wird die approximative Binärabbildung B ^ durch P und T berechnet. Das Textfeld des Inferenzprozesses kann durch einen approximativen Binärgraphen oder Wahrscheinlichkeitsgraphen gewonnen werden.



2. Binäre


2.1 Binarisierung von Standards



2.2 Differenzierbare Binarisierung


Die oben genannte Binarisierungsmethode ist nicht differenzierbar, daher kann sie im Netzwerklernen nicht optimiert werden. Um dieses Problem zu lösen, schlägt diese Arbeit eine approximative Schrittfunktion vor:



Die Ausgabe der obigen Gleichung B ^ stellt den approximativen binären Graphen dar, T ist der Schwellenwert des Netzwerklernens, und k ist ein Faktor, und diese Arbeit ist auf 50 gesetzt. Das Diagramm dieser Funktion ist der obigen Stufenfunktion sehr ähnlich, wie in der Abbildung A in der untenstehenden Abbildung dargestellt.



3. Adaptive Schwelle

Das Obige beschreibt, wie man P nach Erhalt des Wahrscheinlichkeitsgraphen P und des Schwellengraphen T binär in einen approximativen binären Graphen B ^ einführt. Dieser Abschnitt erklärt, wie man die Bezeichnungen Wahrscheinlichkeit P, Schwelle T und binären Graphen B^ bekommt.

3.1 Deformationsfaltung

Da große rezeptive Felder erforderlich sein können, wendet der Artikel die Deformationsfaltung auf ein Netzwerk von ResNet-18 oder ResNet-50 an.



Verlustfunktion

Die im Text verwendete Formel für die Verlustfunktion lautet wie folgt:



schlussfolgern




Original:Der Hyperlink-Login ist sichtbar.




Vorhergehend:Die Angular 18 Serie (dreißig) schafft einen Arbeitsbereich
Nächster:Konvertiere das Paddle-Modell in das ONNX-Modellformat
Verzichtserklärung:
Alle von Code Farmer Network veröffentlichten Software, Programmiermaterialien oder Artikel dienen ausschließlich Lern- und Forschungszwecken; Die oben genannten Inhalte dürfen nicht für kommerzielle oder illegale Zwecke verwendet werden, andernfalls tragen die Nutzer alle Konsequenzen. Die Informationen auf dieser Seite stammen aus dem Internet, und Urheberrechtsstreitigkeiten haben nichts mit dieser Seite zu tun. Sie müssen die oben genannten Inhalte innerhalb von 24 Stunden nach dem Download vollständig von Ihrem Computer löschen. Wenn Ihnen das Programm gefällt, unterstützen Sie bitte echte Software, kaufen Sie die Registrierung und erhalten Sie bessere echte Dienstleistungen. Falls es eine Verletzung gibt, kontaktieren Sie uns bitte per E-Mail.

Mail To:help@itsvse.com