Denne artikkelen er en speilartikkel om maskinoversettelse, vennligst klikk her for å hoppe til originalartikkelen.

Utsikt: 1800|Svare: 0

De grunnleggende prinsippene for dyp læring DBNet

[Kopier lenke]
Publisert 19.01.2025 12:26:21 | | | |
Original lenke:Innloggingen med hyperkoblingen er synlig.
Original kodelenke:Innloggingen med hyperkoblingen er synlig.
Reproduksjonen er bedre:Innloggingen med hyperkoblingen er synlig.

For øyeblikket kan tekstdeteksjon grovt deles inn i to kategorier: regresjonsbaserte metoder og segmenteringsbaserte metoder. Den generelle metodeprosessen basert på segmentering vises i den blå pilen i figuren under: først sendes tekstsegmenteringsresultatet av bildet ut gjennom nettverket (sannsynlighetsgraf, om hver piksel er en positiv prøve), den forhåndsinnstilte terskelen brukes for å konvertere segmenteringsresultatgrafen til et binært plott, og til slutt brukes noen aggregeringsoperasjoner som å koble domener for å konvertere pikselnivåresultater til deteksjonsresultater.



Fra beskrivelsen ovenfor kan man se at fordi det finnes en operasjon som bruker terskler for å bestemme forgrunn og bakgrunn, er denne operasjonen udifferibel, så det er ikke mulig å bruke nettverket til å legge denne delen av prosessen inn i nettverket for trening. Prosessen vises med den røde pilen i bildet over.

1. Nettverksstruktur

Nettverksstrukturen i denne artikkelen vises i følgende figur: Under treningsprosessen, etter at bildet er lagt inn i nettverket, kalles det blå funksjonskartet i figuren ovenfor F etter funksjonsuttrekking og oppprøving av fusjon og konkatoperasjon, og deretter predikeres sannsynlighetskarten (sannsynlighetskartet) av F kalt P, terskelkartet (terskelkartet) forutsies av F kalt T, og til slutt beregnes det tilnærmede binære kartet B ^ gjennom P og T. Tekstboksen for inferensprosessen kan oppnås ved en tilnærmet binær graf eller sannsynlighetsgraf.



2. Binær


2.1 Binarisering av standarder



2.2 Differensierbar binarisering


Den ovennevnte binariseringsmetoden er ikke deriverbar, så den kan ikke optimaliseres i nettverkslæring. For å løse dette problemet foreslår denne artikkelen en tilnærmet trinnfunksjon:



Utgangen av ligningen B ^ representerer den tilnærmede binære grafen, T er terskelgrafen for nettverkslæring, og k er en faktor, og denne artikkelen er satt til 50. Diagrammet til denne funksjonen ligner svært på trinnfunksjonen ovenfor, som vist i figur A i figuren under.



3. Adaptiv terskel

Ovenstående beskriver hvordan man binærer P inn i en tilnærmet binær graf B ^ etter å ha oppnådd sannsynlighetsgrafen P og terskelgrafen T. Denne delen forklarer hvordan man får etikettene Sannsynlighet P, Terskel T og Binær Graf B^.

3.1 Deformasjonskonvolusjon

Siden store reseptive felt kan være nødvendige, anvender artikkelen deformasjonskonvolusjon på et nettverk av ResNet-18 eller ResNet-50.



Tapsfunksjon

Formelen for tapsfunksjonen som brukes i teksten er som følger:



slutte




Original:Innloggingen med hyperkoblingen er synlig.




Foregående:Angular 18-serie (tretti) skaper et arbeidsområde
Neste:Konverter paddle-modellen til ONNX-modellformatet
Ansvarsfraskrivelse:
All programvare, programmeringsmateriell eller artikler publisert av Code Farmer Network er kun for lærings- og forskningsformål; Innholdet ovenfor skal ikke brukes til kommersielle eller ulovlige formål, ellers skal brukerne bære alle konsekvenser. Informasjonen på dette nettstedet kommer fra Internett, og opphavsrettstvister har ingenting med dette nettstedet å gjøre. Du må fullstendig slette innholdet ovenfor fra datamaskinen din innen 24 timer etter nedlasting. Hvis du liker programmet, vennligst støtt ekte programvare, kjøp registrering, og få bedre ekte tjenester. Hvis det foreligger noen krenkelse, vennligst kontakt oss på e-post.

Mail To:help@itsvse.com