De grundläggande principerna för djupinlärning DBNet

Lilla avskum · Publicerad på 2025-01-19 12:26:21

Originallänk:Inloggningen med hyperlänken är synlig.
Ursprunglig kodlänk:Inloggningen med hyperlänken är synlig.
Fortplantningen är bättre:Inloggningen med hyperlänken är synlig.

För närvarande kan textdetektering grovt delas in i två kategorier: regressionsbaserade metoder och segmenteringsbaserade metoder. Den allmänna metodprocessen baserad på segmentering visas i den blå pilen i figuren nedan: först skickas textsegmenteringsresultatet av bilden ut via nätverket (sannolikhetsgrafen, om varje pixel är ett positivt prov), den förinställda tröskeln används för att omvandla segmenteringsresultatgrafen till en binär graf, och slutligen används vissa aggregeringsoperationer såsom att koppla samman domäner för att omvandla pixelnivåresultat till detektionsresultat.

Utifrån ovanstående beskrivning kan man se att eftersom det finns en operation som använder trösklar för att bestämma förgrund och bakgrund, är denna operation indifferentiabel, så det är inte möjligt att använda nätverket för att lägga denna del av processen in i nätverket för träning. Processen visas av den röda pilen i bilden ovan.

1. Nätverksstruktur

Nätverksstrukturen i denna artikel visas i följande figur: under träningsprocessen, efter att bilden matats in i nätverket, kallas den blå funktionskartan i figuren ovan F efter funktionsextraktion och uppsampling av fusion och konkatoperation, och sedan förutsägs sannolikhetsavbildningen (sannolikhetskartan) av F kallad P och tröskelkartan (tröskelkartan) som förutsägs av F kallas T, och slutligen beräknas den ungefärliga binära avbildningen B ^ genom P och T. Inferensprocessens textrutan kan erhållas med en approximativ binär graf eller sannolikhetsgraf.

2. Binära

2.1 Binarisering av standarder

2.2 Deriverbar binarisering

Ovanstående binariseringsmetod är inte differentierbar, så den kan inte optimeras vid nätverksinlärning. För att lösa detta problem föreslår denna artikel en approximativ stegfunktion:

Utdata från ovanstående ekvation B ^ representerar den approximativa binära grafen, T är tröskelgrafen för nätverksinlärning, och k är en faktor, och denna artikel är satt till 50. Diagrammet för denna funktion är mycket likt stegfunktionen ovan, som visas i figur A i figuren nedan.

3. Adaptiv tröskel

Ovan beskriver hur man binära P kan omvandlas till en approximativ binär graf B ^ efter att ha erhållit sannolikhetsgrafen P och tröskelgrafen T. Detta avsnitt förklarar hur man får etiketterna Sannolikhet P, Tröskel T och Binära Graf B^.

3.1 Deformationskonvolution

Eftersom stora receptiva fält kan krävas, applicerar artikeln deformationskonvolution på ett nätverk av ResNet-18 eller ResNet-50.

Förlustfunktion

Formeln för förlustfunktionen som används i texten är följande:

härleda

Original:Inloggningen med hyperlänken är synlig.

De grundläggande principerna för djupinlärning DBNet

Relaterade inlägg

Avsnitt som ses