De grundlæggende principper for dyb læring DBNet

Lille skarn · Opslået på 19/01/2025 12.26.21

Originalt link:Hyperlink-login er synlig.
Originalt kodelink:Hyperlink-login er synlig.
Reproduktionen er bedre:Hyperlink-login er synlig.

I øjeblikket kan tekstdetektion groft opdeles i to kategorier: regressionsbaserede metoder og segmenteringsbaserede metoder. Den generelle metodeproces baseret på segmentering vises i den blå pil i figuren nedenfor: først outputtes tekstsegmenteringsresultatet af billedet gennem netværket (sandsynlighedsgrafen, om hver pixel er en positiv prøve), den forudindstillede tærskel bruges til at konvertere segmenteringsresultatgrafen til et binært plot, og endelig bruges nogle aggregationsoperationer såsom at forbinde domæner til at konvertere pixelniveau-resultater til detektionsresultater.

Ud fra ovenstående beskrivelse kan det ses, at fordi der findes en operation, der bruger tærskler til at bestemme forgrund og baggrund, er denne operation indifferentiabel, så det er ikke muligt at bruge netværket til at lægge denne del af processen ind i netværket til træning. Processen vises ved den røde pil på billedet ovenfor.

1. Netværksstruktur

Netværksstrukturen i denne artikel vises i følgende figur: Under træningsprocessen, efter billedet er indtastet i netværket, kaldes det blå featurekort i figuren ovenfor F efter feature-ekstraktion og upsampling fusion og concat-operation, og derefter forudsiges sandsynlighedskortet (sandsynlighedskortet) af F kaldet P, og tærskelkortet (tærskelkortet) forudsiges af F kaldes T, og endelig beregnes det tilnærmede binære kort B ^ gennem P og T. Inferensprocessens tekstboks kan opnås ved at tilnærme binær graf eller sandsynlighedsgraf.

2. Binær

2.1 Binarisering af standarder

2.2 Differentiabel binarisering

Den ovenstående binariseringsmetode er ikke differentierbar, så den kan ikke optimeres i netværkslæring. For at løse dette problem foreslår denne artikel en tilnærmet trinfunktion:

Outputtet af ovenstående ligning B ^ repræsenterer den tilnærmede binære graf, T er tærskelgrafen for netværkslæring, og k er en faktor, og denne artikel er sat til 50. Diagrammet for denne funktion ligner meget trinfunktionen ovenfor, som vist i figuren A i figuren nedenfor.

3. Adaptiv tærskel

Ovenstående beskriver, hvordan man binærer P ind i en tilnærmet binær graf B ^ efter at have opnået sandsynlighedsgrafen P og tærskelgrafen T. Dette afsnit forklarer, hvordan man får mærkaterne for sandsynlighed P, tærskel T og binær graf B^.

3.1 Deformationskonvolution

Da store receptive felter kan være nødvendige, anvender artiklen deformationskonvolution på et netværk af ResNet-18 eller ResNet-50.

Tabsfunktion

Formlen for tabsfunktionen, der bruges i teksten, er som følger:

udlede

Oprindelig:Hyperlink-login er synlig.

De grundlæggende principper for dyb læring DBNet

Relaterede indlæg

Afsnit set