De grunnleggende prinsippene for dyp læring DBNet

Lille skurk · Publisert på 19.01.2025 12:26:21

Original lenke:Innloggingen med hyperkoblingen er synlig.
Original kodelenke:Innloggingen med hyperkoblingen er synlig.
Reproduksjonen er bedre:Innloggingen med hyperkoblingen er synlig.

For øyeblikket kan tekstdeteksjon grovt deles inn i to kategorier: regresjonsbaserte metoder og segmenteringsbaserte metoder. Den generelle metodeprosessen basert på segmentering vises i den blå pilen i figuren under: først sendes tekstsegmenteringsresultatet av bildet ut gjennom nettverket (sannsynlighetsgraf, om hver piksel er en positiv prøve), den forhåndsinnstilte terskelen brukes for å konvertere segmenteringsresultatgrafen til et binært plott, og til slutt brukes noen aggregeringsoperasjoner som å koble domener for å konvertere pikselnivåresultater til deteksjonsresultater.

Fra beskrivelsen ovenfor kan man se at fordi det finnes en operasjon som bruker terskler for å bestemme forgrunn og bakgrunn, er denne operasjonen udifferibel, så det er ikke mulig å bruke nettverket til å legge denne delen av prosessen inn i nettverket for trening. Prosessen vises med den røde pilen i bildet over.

1. Nettverksstruktur

Nettverksstrukturen i denne artikkelen vises i følgende figur: Under treningsprosessen, etter at bildet er lagt inn i nettverket, kalles det blå funksjonskartet i figuren ovenfor F etter funksjonsuttrekking og oppprøving av fusjon og konkatoperasjon, og deretter predikeres sannsynlighetskarten (sannsynlighetskartet) av F kalt P, terskelkartet (terskelkartet) forutsies av F kalt T, og til slutt beregnes det tilnærmede binære kartet B ^ gjennom P og T. Tekstboksen for inferensprosessen kan oppnås ved en tilnærmet binær graf eller sannsynlighetsgraf.

2. Binær

2.1 Binarisering av standarder

2.2 Differensierbar binarisering

Den ovennevnte binariseringsmetoden er ikke deriverbar, så den kan ikke optimaliseres i nettverkslæring. For å løse dette problemet foreslår denne artikkelen en tilnærmet trinnfunksjon:

Utgangen av ligningen B ^ representerer den tilnærmede binære grafen, T er terskelgrafen for nettverkslæring, og k er en faktor, og denne artikkelen er satt til 50. Diagrammet til denne funksjonen ligner svært på trinnfunksjonen ovenfor, som vist i figur A i figuren under.

3. Adaptiv terskel

Ovenstående beskriver hvordan man binærer P inn i en tilnærmet binær graf B ^ etter å ha oppnådd sannsynlighetsgrafen P og terskelgrafen T. Denne delen forklarer hvordan man får etikettene Sannsynlighet P, Terskel T og Binær Graf B^.

3.1 Deformasjonskonvolusjon

Siden store reseptive felt kan være nødvendige, anvender artikkelen deformasjonskonvolusjon på et nettverk av ResNet-18 eller ResNet-50.

Tapsfunksjon

Formelen for tapsfunksjonen som brukes i teksten er som følger:

slutte

Original:Innloggingen med hyperkoblingen er synlig.

De grunnleggende prinsippene for dyp læring DBNet

Relaterte innlegg

Seksjoner sett