Originallink:Der Hyperlink-Login ist sichtbar. Original-Code-Link:Der Hyperlink-Login ist sichtbar. Die Fortpflanzung ist besser:Der Hyperlink-Login ist sichtbar.
Derzeit lässt sich die Texterkennung grob in zwei Kategorien unterteilen: regressionsbasierte Methoden und segmentierungsbasierte Methoden. Der allgemeine Methodenprozess basierend auf Segmentierung ist im blauen Pfeil in der untenstehenden Abbildung dargestellt: Zuerst wird das Textsegmentierungsergebnis des Bildes über das Netzwerk ausgegeben (Wahrscheinlichkeitsgraph, ob jedes Pixel eine positive Stichprobe ist), der voreingestellte Schwellenwert wird verwendet, um den Segmentierungsergebnisgraphen in einen binären Plot umzuwandeln, und schließlich werden einige Aggregationsoperationen wie das Verbinden von Domänen verwendet, um Pixelergebnisse in Erkennungsergebnisse umzuwandeln.
Aus der obigen Beschreibung geht hervor, dass eine Operation, die Schwellenwerte zur Bestimmung von Vordergrund und Hintergrund verwendet, diese Operation undifferentierbar ist, sodass es nicht möglich ist, das Netzwerk zu nutzen, um diesen Teil des Prozesses für das Training ins Netzwerk zu bringen. Der Prozess wird durch den roten Pfeil im obigen Bild dargestellt.
1. Netzwerkstruktur
Die Netzwerkstruktur in diesem Artikel ist in der folgenden Abbildung dargestellt: Während des Trainingsprozesses, nachdem das Bild ins Netzwerk eingegeben wurde, wird die blaue Merkmalsabbildung in der obigen Abbildung nach der Merkmalsextraktion und dem Upsampling von Fusion und Concat-Operation als F bezeichnet, dann wird die Wahrscheinlichkeitskarte (Wahrscheinlichkeitsabbildung) durch F namens P vorhergesagt und die Schwellenabbildung (Schwellenabbildung) durch F als T bezeichnet, und schließlich wird die approximative Binärabbildung B ^ durch P und T berechnet. Das Textfeld des Inferenzprozesses kann durch einen approximativen Binärgraphen oder Wahrscheinlichkeitsgraphen gewonnen werden.
2. Binäre
2.1 Binarisierung von Standards
2.2 Differenzierbare Binarisierung
Die oben genannte Binarisierungsmethode ist nicht differenzierbar, daher kann sie im Netzwerklernen nicht optimiert werden. Um dieses Problem zu lösen, schlägt diese Arbeit eine approximative Schrittfunktion vor:
Die Ausgabe der obigen Gleichung B ^ stellt den approximativen binären Graphen dar, T ist der Schwellenwert des Netzwerklernens, und k ist ein Faktor, und diese Arbeit ist auf 50 gesetzt. Das Diagramm dieser Funktion ist der obigen Stufenfunktion sehr ähnlich, wie in der Abbildung A in der untenstehenden Abbildung dargestellt.
3. Adaptive Schwelle
Das Obige beschreibt, wie man P nach Erhalt des Wahrscheinlichkeitsgraphen P und des Schwellengraphen T binär in einen approximativen binären Graphen B ^ einführt. Dieser Abschnitt erklärt, wie man die Bezeichnungen Wahrscheinlichkeit P, Schwelle T und binären Graphen B^ bekommt.
3.1 Deformationsfaltung
Da große rezeptive Felder erforderlich sein können, wendet der Artikel die Deformationsfaltung auf ein Netzwerk von ResNet-18 oder ResNet-50 an.
Verlustfunktion
Die im Text verwendete Formel für die Verlustfunktion lautet wie folgt:
schlussfolgern
Original:Der Hyperlink-Login ist sichtbar.
|