Principiile de bază ale învățării profunde DBNet

Mică mizerie · Postat pe 19.01.2025 12:26:21

Link original:Autentificarea cu hyperlink este vizibilă.
Link original al codului:Autentificarea cu hyperlink este vizibilă.
Reproducerea este mai bună:Autentificarea cu hyperlink este vizibilă.

În prezent, detectarea textului poate fi împărțită aproximativ în două categorii: metode bazate pe regresie și metode bazate pe segmentare. Procesul general de metodă bazat pe segmentare este prezentat în săgeata albastră din figura de mai jos: mai întâi, rezultatul segmentării textului al imaginii este transmis prin rețea (grafic de probabilitate, dacă fiecare pixel este un eșantion pozitiv), pragul presetat este folosit pentru a converti graficul rezultatului segmentării într-un grafic binar, iar în final unele operații de agregare, cum ar fi domeniile de conectare, sunt folosite pentru a transforma rezultatele la nivel de pixel în rezultate de detecție.

Din descrierea de mai sus, se poate observa că, deoarece există o operație care folosește praguri pentru a determina prim-planul și fundalul, această operație este indiferențiabilă, astfel încât nu este posibil să folosești rețeaua pentru a introduce această parte a procesului în rețea pentru antrenament. Procesul este arătat de săgeata roșie din imaginea de mai sus.

1. Structura rețelei

Structura rețelei din această lucrare este prezentată în figura următoare: în timpul procesului de antrenament, după ce imaginea este introdusă în rețea, harta albastră a caracteristicilor din figura de mai sus se numește F după extragerea caracteristicilor și upsampling pentru fuziunea și operația de concat, apoi harta probabilității (harta probabilității) este prezisă de F numită P, iar harta pragului (harta pragului) este prezisă de F se numește T, iar în final harta binară aproximativă B ^ este calculată prin P și T. Caseta de text a procesului de inferență poate fi obținută printr-un graf binar aproximativ sau un graf de probabilitate.

2. Binar

2.1 Binarizarea standardelor

2.2 Binarizare diferențiabilă

Metoda de binarizare de mai sus nu este diferențiabilă, deci nu poate fi optimizată în învățarea rețelelor. Pentru a rezolva această problemă, această lucrare propune o funcție de pas aproximativă:

Rezultatul ecuației de mai sus B ^ reprezintă graficul binar aproximativ, T este graful prag al învățării rețelelor, iar k este un factor, iar această lucrare este setată la 50. Diagrama acestei funcții este foarte asemănătoare cu funcția treptată de mai sus, așa cum se vede în figura A din figura de mai jos.

3. Pragul adaptiv

Cele de mai sus descriu cum să se transforme P într-un graf binar aproximativ B ^ după obținerea grafului de probabilitate P și grafului prag T. Această secțiune explică cum se obțin etichetele Probabilitate P, Prag T și Graf Binar B^.

3.1 Convoluția deformării

Deoarece pot fi necesare câmpuri receptive mari, articolul aplică convoluția de deformare unei rețele formate din ResNet-18 sau ResNet-50.

Funcția pierderii

Formula pentru funcția de pierdere folosită în text este următoarea:

deduce

Original:Autentificarea cu hyperlink este vizibilă.

Principiile de bază ale învățării profunde DBNet

Postări conexe

Secțiuni vizualizate