Základné princípy hlbokého učenia DBNet

Malý · Zverejnené 19. 1. 2025 12:26:21

Pôvodný odkaz:Prihlásenie na hypertextový odkaz je viditeľné.
Pôvodný odkaz na kód:Prihlásenie na hypertextový odkaz je viditeľné.
Rozmnožovanie je lepšie:Prihlásenie na hypertextový odkaz je viditeľné.

V súčasnosti možno detekciu textu približne rozdeliť do dvoch kategórií: metódy založené na regresii a metódy založené na segmentácii. Všeobecný proces metódy založený na segmentácii je znázornený modrou šípkou na obrázku nižšie: najprv sa výsledok segmentácie textu obrázka výstupí cez sieť (pravdepodobnostný graf, či je každý pixel pozitívny vzorka), prednastavený prah sa použije na konverziu grafu výsledkov segmentácie na binárny graf a nakoniec sa použijú niektoré agregačné operácie, ako sú prepojenia domén, na konverziu výsledkov na úrovni pixelov na výsledky detekcie.

Z vyššie uvedeného popisu vyplýva, že keďže existuje operácia, ktorá používa prahy na určenie popredia a pozadia, táto operácia je nediferenciovateľná, takže nie je možné použiť sieť na vloženie tejto časti procesu do siete na trénovanie. Proces je znázornený červenou šípkou na obrázku vyššie.

1. Štruktúra siete

Štruktúra siete v tomto článku je znázornená na nasledujúcom obrázku, počas trénovacieho procesu, po zadaní obrázka do siete, sa modrá mapa príznakov na vyššie uvedenom obrázku nazýva F po extrakcii príznakov a upsamplovaní fúznej a konkatnej operácie, potom sa pravdepodobnostná mapa (pravdepodobnostná mapa) predpovedá F nazývaná P a prahová mapa (prahová mapa) je predpovedaná F, nazýva sa T, a nakoniec sa vypočíta aproximátna binárna mapa B ^ cez P a T. Textové pole procesu inferencie možno získať pomocou aproximátneho binárneho grafu alebo pravdepodobnostného grafu.

2. Binárne

2.1 Binarizácia štandardov

2.2 Diferencovateľná binarizácia

Vyššie uvedená metóda binarizácie nie je diferencovateľná, takže ju nie je možné optimalizovať pri učení sietí. Na vyriešenie tohto problému tento článok navrhuje približnú krokovú funkciu:

Výstup vyššie uvedenej rovnice B ^ predstavuje približný binárny graf, T je prahový graf učenia siete a k je faktor, pričom tento článok je nastavený na 50. Diagram tejto funkcie je veľmi podobný krokovej funkcii vyššie, ako je znázornené na obrázku A nižšie.

3. Adaptívny prah

Vyššie uvedené popisuje, ako binárne nastaviť P do približného binárneho grafu B ^ po získaní pravdepodobnostného grafu P a prahového grafu T. Táto sekcia vysvetľuje, ako získať označenia pravdepodobnosti P, prahu T a binárneho grafu B^.

3.1 Deformačná konvolúcia

Keďže môžu byť potrebné veľké receptívne polia, článok aplikuje deformačnú konvolúciu na sieť ResNet-18 alebo ResNet-50.

Stratová funkcia

Vzorec pre stratovú funkciu použitý v texte je nasledovný:

dedukovať

Originál:Prihlásenie na hypertextový odkaz je viditeľné.

Základné princípy hlbokého učenia DBNet

Súvisiace príspevky

Zobrazené sekcie