Základní principy hlubokého učení DBNet

Malý hajzl · Zveřejněno 19.01.2025 12:26:21

Původní odkaz:Přihlášení k hypertextovému odkazu je viditelné.
Původní odkaz na kód:Přihlášení k hypertextovému odkazu je viditelné.
Reprodukce je lepší:Přihlášení k hypertextovému odkazu je viditelné.

V současnosti lze detekci textu zhruba rozdělit do dvou kategorií: metody založené na regresi a metody založené na segmentaci. Obecný metodický proces založený na segmentaci je zobrazen modrou šipkou na obrázku níže: nejprve je výsledek segmentace textu obrazu vytištěn sítí (pravděpodobnostní graf, zda je každý pixel pozitivní vzorek), přednastavený práh se použije k převodu grafu výsledků segmentace na binární graf a nakonec se použijí agregační operace, jako jsou spojovací domény, k převodu výsledků na úrovni pixelů na výsledky detekce.

Z výše uvedeného popisu je patrné, že protože existuje operace, která používá prahy k určení popředí a pozadí, je tato operace nediferencovatelná, takže není možné použít síť k vložení této části procesu do sítě pro trénování. Proces je znázorněn červenou šipkou na obrázku výše.

1. Struktura sítě

Struktura sítě v tomto článku je znázorněna na následujícím obrázku, během trénovacího procesu, poté co je obrázek zadán do sítě, se modrá mapa příznaků na výše uvedeném obrázku nazývá F po extrakci příznaků a upsamplování fúze a konkatu, poté je pravděpodobnostní mapa (pravděpodobnostní mapa) predikována F nazvaná P a prahová mapa (prahová mapa) je předpovězena F se nazývá T, a nakonec je aproximativní binární zobrazení B ^ vypočítáno pomocí P a T. Textové pole pro proces inference lze získat pomocí aproximativního binárního grafu nebo pravděpodobnostního grafu.

2. Binární

2.1 Binarizace standardů

2.2 Diferencovatelná binarizace

Výše uvedená metoda binarizace není diferencovatelná, takže ji nelze optimalizovat při síťovém učení. K vyřešení tohoto problému tento článek navrhuje přibližnou krokovou funkci:

Výstup výše uvedené rovnice B ^ představuje přibližný binární graf, T je prahový graf síťového učení a k je faktor, a tento článek je nastaven na 50. Diagram této funkce je velmi podobný výše uvedené krokové funkci, jak je znázorněno na obrázku A níže.

3. Adaptivní práh

Výše uvedené popisuje, jak binárně převést P do přibližného binárního grafu B ^ po získání pravděpodobnostního grafu P a prahového grafu T. Tato sekce vysvětluje, jak získat štítky pravděpodobnosti P, prahu T a binárního grafu B^.

3.1 Deformační konvoluce

Protože mohou být vyžadována velká receptivní pole, článek aplikuje deformační konvoluci na síť ResNet-18 nebo ResNet-50.

Ztrátová funkce

Vzorec pro ztrátovou funkci použitý v textu je následující:

odvodit

Původní:Přihlášení k hypertextovému odkazu je viditelné.

Základní principy hlubokého učení DBNet

Související příspěvky

Prohlížené sekce