Denne artikel er en spejling af maskinoversættelse, klik venligst her for at springe til den oprindelige artikel.

Udsigt: 1800|Svar: 0

De grundlæggende principper for dyb læring DBNet

[Kopier link]
Opslået den 19-01-2025 kl. 12:26:21 | | | |
Originalt link:Hyperlink-login er synlig.
Originalt kodelink:Hyperlink-login er synlig.
Reproduktionen er bedre:Hyperlink-login er synlig.

I øjeblikket kan tekstdetektion groft opdeles i to kategorier: regressionsbaserede metoder og segmenteringsbaserede metoder. Den generelle metodeproces baseret på segmentering vises i den blå pil i figuren nedenfor: først outputtes tekstsegmenteringsresultatet af billedet gennem netværket (sandsynlighedsgrafen, om hver pixel er en positiv prøve), den forudindstillede tærskel bruges til at konvertere segmenteringsresultatgrafen til et binært plot, og endelig bruges nogle aggregationsoperationer såsom at forbinde domæner til at konvertere pixelniveau-resultater til detektionsresultater.



Ud fra ovenstående beskrivelse kan det ses, at fordi der findes en operation, der bruger tærskler til at bestemme forgrund og baggrund, er denne operation indifferentiabel, så det er ikke muligt at bruge netværket til at lægge denne del af processen ind i netværket til træning. Processen vises ved den røde pil på billedet ovenfor.

1. Netværksstruktur

Netværksstrukturen i denne artikel vises i følgende figur: Under træningsprocessen, efter billedet er indtastet i netværket, kaldes det blå featurekort i figuren ovenfor F efter feature-ekstraktion og upsampling fusion og concat-operation, og derefter forudsiges sandsynlighedskortet (sandsynlighedskortet) af F kaldet P, og tærskelkortet (tærskelkortet) forudsiges af F kaldes T, og endelig beregnes det tilnærmede binære kort B ^ gennem P og T. Inferensprocessens tekstboks kan opnås ved at tilnærme binær graf eller sandsynlighedsgraf.



2. Binær


2.1 Binarisering af standarder



2.2 Differentiabel binarisering


Den ovenstående binariseringsmetode er ikke differentierbar, så den kan ikke optimeres i netværkslæring. For at løse dette problem foreslår denne artikel en tilnærmet trinfunktion:



Outputtet af ovenstående ligning B ^ repræsenterer den tilnærmede binære graf, T er tærskelgrafen for netværkslæring, og k er en faktor, og denne artikel er sat til 50. Diagrammet for denne funktion ligner meget trinfunktionen ovenfor, som vist i figuren A i figuren nedenfor.



3. Adaptiv tærskel

Ovenstående beskriver, hvordan man binærer P ind i en tilnærmet binær graf B ^ efter at have opnået sandsynlighedsgrafen P og tærskelgrafen T. Dette afsnit forklarer, hvordan man får mærkaterne for sandsynlighed P, tærskel T og binær graf B^.

3.1 Deformationskonvolution

Da store receptive felter kan være nødvendige, anvender artiklen deformationskonvolution på et netværk af ResNet-18 eller ResNet-50.



Tabsfunktion

Formlen for tabsfunktionen, der bruges i teksten, er som følger:



udlede




Oprindelig:Hyperlink-login er synlig.




Tidligere:Angular 18-serie (tredive) skaber et arbejdsområde
Næste:Konverter paddle-modellen til ONNX-modelformatet
Ansvarsfraskrivelse:
Al software, programmeringsmaterialer eller artikler udgivet af Code Farmer Network er kun til lærings- og forskningsformål; Ovenstående indhold må ikke bruges til kommercielle eller ulovlige formål, ellers skal brugerne bære alle konsekvenser. Oplysningerne på dette site kommer fra internettet, og ophavsretstvister har intet med dette site at gøre. Du skal slette ovenstående indhold fuldstændigt fra din computer inden for 24 timer efter download. Hvis du kan lide programmet, så understøt venligst ægte software, køb registrering og få bedre ægte tjenester. Hvis der er nogen overtrædelse, bedes du kontakte os via e-mail.

Mail To:help@itsvse.com