Denna artikel är en spegelartikel om maskinöversättning, klicka här för att hoppa till originalartikeln.

Utsikt: 1800|Svar: 0

De grundläggande principerna för djupinlärning DBNet

[Kopiera länk]
Publicerad den 2025-1-19 12:26:21 | | | |
Originallänk:Inloggningen med hyperlänken är synlig.
Ursprunglig kodlänk:Inloggningen med hyperlänken är synlig.
Fortplantningen är bättre:Inloggningen med hyperlänken är synlig.

För närvarande kan textdetektering grovt delas in i två kategorier: regressionsbaserade metoder och segmenteringsbaserade metoder. Den allmänna metodprocessen baserad på segmentering visas i den blå pilen i figuren nedan: först skickas textsegmenteringsresultatet av bilden ut via nätverket (sannolikhetsgrafen, om varje pixel är ett positivt prov), den förinställda tröskeln används för att omvandla segmenteringsresultatgrafen till en binär graf, och slutligen används vissa aggregeringsoperationer såsom att koppla samman domäner för att omvandla pixelnivåresultat till detektionsresultat.



Utifrån ovanstående beskrivning kan man se att eftersom det finns en operation som använder trösklar för att bestämma förgrund och bakgrund, är denna operation indifferentiabel, så det är inte möjligt att använda nätverket för att lägga denna del av processen in i nätverket för träning. Processen visas av den röda pilen i bilden ovan.

1. Nätverksstruktur

Nätverksstrukturen i denna artikel visas i följande figur: under träningsprocessen, efter att bilden matats in i nätverket, kallas den blå funktionskartan i figuren ovan F efter funktionsextraktion och uppsampling av fusion och konkatoperation, och sedan förutsägs sannolikhetsavbildningen (sannolikhetskartan) av F kallad P och tröskelkartan (tröskelkartan) som förutsägs av F kallas T, och slutligen beräknas den ungefärliga binära avbildningen B ^ genom P och T. Inferensprocessens textrutan kan erhållas med en approximativ binär graf eller sannolikhetsgraf.



2. Binära


2.1 Binarisering av standarder



2.2 Deriverbar binarisering


Ovanstående binariseringsmetod är inte differentierbar, så den kan inte optimeras vid nätverksinlärning. För att lösa detta problem föreslår denna artikel en approximativ stegfunktion:



Utdata från ovanstående ekvation B ^ representerar den approximativa binära grafen, T är tröskelgrafen för nätverksinlärning, och k är en faktor, och denna artikel är satt till 50. Diagrammet för denna funktion är mycket likt stegfunktionen ovan, som visas i figur A i figuren nedan.



3. Adaptiv tröskel

Ovan beskriver hur man binära P kan omvandlas till en approximativ binär graf B ^ efter att ha erhållit sannolikhetsgrafen P och tröskelgrafen T. Detta avsnitt förklarar hur man får etiketterna Sannolikhet P, Tröskel T och Binära Graf B^.

3.1 Deformationskonvolution

Eftersom stora receptiva fält kan krävas, applicerar artikeln deformationskonvolution på ett nätverk av ResNet-18 eller ResNet-50.



Förlustfunktion

Formeln för förlustfunktionen som används i texten är följande:



härleda




Original:Inloggningen med hyperlänken är synlig.




Föregående:Angular 18-serie (trettio) skapar en arbetsyta
Nästa:Konvertera paddelmodellen till ONNX-modellformatet
Friskrivning:
All programvara, programmeringsmaterial eller artiklar som publiceras av Code Farmer Network är endast för lärande- och forskningsändamål; Ovanstående innehåll får inte användas för kommersiella eller olagliga ändamål, annars kommer användarna att bära alla konsekvenser. Informationen på denna sida kommer från internet, och upphovsrättstvister har inget med denna sida att göra. Du måste helt radera ovanstående innehåll från din dator inom 24 timmar efter nedladdning. Om du gillar programmet, vänligen stöd äkta programvara, köp registrering och få bättre äkta tjänster. Om det finns något intrång, vänligen kontakta oss via e-post.

Mail To:help@itsvse.com