Tento článek je zrcadlovým článkem o strojovém překladu, klikněte zde pro přechod na původní článek.

Pohled: 1800|Odpověď: 0

Základní principy hlubokého učení DBNet

[Kopírovat odkaz]
Zveřejněno 19. 1. 2025 12:26:21 | | | |
Původní odkaz:Přihlášení k hypertextovému odkazu je viditelné.
Původní odkaz na kód:Přihlášení k hypertextovému odkazu je viditelné.
Reprodukce je lepší:Přihlášení k hypertextovému odkazu je viditelné.

V současnosti lze detekci textu zhruba rozdělit do dvou kategorií: metody založené na regresi a metody založené na segmentaci. Obecný metodický proces založený na segmentaci je zobrazen modrou šipkou na obrázku níže: nejprve je výsledek segmentace textu obrazu vytištěn sítí (pravděpodobnostní graf, zda je každý pixel pozitivní vzorek), přednastavený práh se použije k převodu grafu výsledků segmentace na binární graf a nakonec se použijí agregační operace, jako jsou spojovací domény, k převodu výsledků na úrovni pixelů na výsledky detekce.



Z výše uvedeného popisu je patrné, že protože existuje operace, která používá prahy k určení popředí a pozadí, je tato operace nediferencovatelná, takže není možné použít síť k vložení této části procesu do sítě pro trénování. Proces je znázorněn červenou šipkou na obrázku výše.

1. Struktura sítě

Struktura sítě v tomto článku je znázorněna na následujícím obrázku, během trénovacího procesu, poté co je obrázek zadán do sítě, se modrá mapa příznaků na výše uvedeném obrázku nazývá F po extrakci příznaků a upsamplování fúze a konkatu, poté je pravděpodobnostní mapa (pravděpodobnostní mapa) predikována F nazvaná P a prahová mapa (prahová mapa) je předpovězena F se nazývá T, a nakonec je aproximativní binární zobrazení B ^ vypočítáno pomocí P a T. Textové pole pro proces inference lze získat pomocí aproximativního binárního grafu nebo pravděpodobnostního grafu.



2. Binární


2.1 Binarizace standardů



2.2 Diferencovatelná binarizace


Výše uvedená metoda binarizace není diferencovatelná, takže ji nelze optimalizovat při síťovém učení. K vyřešení tohoto problému tento článek navrhuje přibližnou krokovou funkci:



Výstup výše uvedené rovnice B ^ představuje přibližný binární graf, T je prahový graf síťového učení a k je faktor, a tento článek je nastaven na 50. Diagram této funkce je velmi podobný výše uvedené krokové funkci, jak je znázorněno na obrázku A níže.



3. Adaptivní práh

Výše uvedené popisuje, jak binárně převést P do přibližného binárního grafu B ^ po získání pravděpodobnostního grafu P a prahového grafu T. Tato sekce vysvětluje, jak získat štítky pravděpodobnosti P, prahu T a binárního grafu B^.

3.1 Deformační konvoluce

Protože mohou být vyžadována velká receptivní pole, článek aplikuje deformační konvoluci na síť ResNet-18 nebo ResNet-50.



Ztrátová funkce

Vzorec pro ztrátovou funkci použitý v textu je následující:



odvodit




Původní:Přihlášení k hypertextovému odkazu je viditelné.




Předchozí:Angular 18 série (třicet) vytváří pracovní prostor
Další:Převést model pádla do formátu modelu ONNX
Zřeknutí se:
Veškerý software, programovací materiály nebo články publikované organizací Code Farmer Network slouží pouze k učení a výzkumu; Výše uvedený obsah nesmí být používán pro komerční ani nelegální účely, jinak nesou všechny důsledky uživatelé. Informace na tomto webu pocházejí z internetu a spory o autorská práva s tímto webem nesouvisí. Musíte výše uvedený obsah ze svého počítače zcela smazat do 24 hodin od stažení. Pokud se vám program líbí, podporujte prosím originální software, kupte si registraci a získejte lepší skutečné služby. Pokud dojde k jakémukoli porušení, kontaktujte nás prosím e-mailem.

Mail To:help@itsvse.com