De basisprincipes van deep learning DBNet

Klein tuig · Geplaatst op 19-01-2025 12:26:21

Originele link:De hyperlink-login is zichtbaar.
Originele codelink:De hyperlink-login is zichtbaar.
De voortplanting is beter:De hyperlink-login is zichtbaar.

Op dit moment kan tekstdetectie grofweg worden onderverdeeld in twee categorieën: regressiegebaseerde methoden en segmentatiegebaseerde methoden. Het algemene methodeproces gebaseerd op segmentatie wordt weergegeven in de blauwe pijl in de onderstaande figuur: eerst wordt het tekstsegmentatieresultaat van de afbeelding via het netwerk uitgegeven (waarschijnlijkheidsgrafiek, of elke pixel een positieve steekproef is), de vooraf ingestelde drempel wordt gebruikt om de segmentatieresultaatgrafiek om te zetten in een binaire grafiek, en tenslotte worden enkele aggregatiebewerkingen zoals het verbinden van domeinen gebruikt om pixelniveauresultaten om te zetten in detectieresultaten.

Uit bovenstaande beschrijving blijkt dat omdat er een operatie is die drempels gebruikt om de voorgrond en achtergrond te bepalen, deze bewerking ondifferentieel is, waardoor het niet mogelijk is om het netwerk te gebruiken om dit deel van het proces in het netwerk te plaatsen voor training. Het proces wordt getoond door de rode pijl in de afbeelding hierboven.

1. Netwerkstructuur

De netwerkstructuur in dit artikel wordt weergegeven in de volgende figuur: tijdens het trainingsproces, nadat het beeld in het netwerk is ingevoerd, wordt de blauwe featuremap in de bovenstaande figuur F genoemd na feature-extractie en upsampling fusion en concat-operatie, waarna de kansmap (probability map) wordt voorspeld door F genaamd P en de drempelkaart (threshold map) die door F wordt voorspeld wordt T genoemd, en tenslotte wordt de benaderende binaire map B ^ berekend via P en T. Het tekstvak voor het inferentieproces kan worden verkregen door een benaderende binaire graaf of kansgrafiek.

2. Binair

2.1 Tweenarisatie van standaarden

2.2 Differentieerbare binarisatie

De bovenstaande binarisatiemethode is niet differentieerbaar, dus deze kan niet worden geoptimaliseerd in netwerkleren. Om dit probleem op te lossen, stelt dit artikel een benaderende stapfunctie voor:

De output van bovenstaande vergelijking B ^ vertegenwoordigt de benaderende binaire graaf, T is de drempelgrafiek van netwerkleren, en k is een factor, en dit artikel is ingesteld op 50. Het diagram van deze functie lijkt sterk op de stapfunctie hierboven, zoals getoond in de figuur A in de onderstaande figuur.

3. Adaptieve drempel

Bovenstaande beschrijft hoe je P in een benaderende binaire graaf B ^ kunt omzetten na het verkrijgen van de waarschijnlijkheidsgrafiek P en de drempelgrafiek T. Deze sectie legt uit hoe je de labels van Kansrekening P, Drempel T en Binaire Graaf B^ kunt krijgen.

3.1 Vervormingsconvolutie

Omdat grote receptieve velden nodig kunnen zijn, past het artikel deformatieconvolutie toe op een netwerk van ResNet-18 of ResNet-50.

Verliesfunctie

De formule voor de verliesfunctie die in de tekst wordt gebruikt, is als volgt:

afleiden

Origineel:De hyperlink-login is zichtbaar.

De basisprincipes van deep learning DBNet

Gerelateerde berichten

Secties bekeken