Osnovna načela globokega učenja DBNet

Mala drhal · Objavljeno na 19. 01. 2025 12:26:21

Izvirna povezava:Prijava do hiperpovezave je vidna.
Izvirna povezava do kode:Prijava do hiperpovezave je vidna.
Razmnoževanje je boljše:Prijava do hiperpovezave je vidna.

Trenutno lahko zaznavanje besedila približno razdelimo v dve kategoriji: metode, ki temeljijo na regresiji, in metode, ki temeljijo na segmentaciji. Splošni postopek metode, ki temelji na segmentaciji, je prikazan v modri puščici na spodnji sliki: najprej se rezultat segmentacije besedila slike izpiše skozi omrežje (graf verjetnosti, ali je vsak piksel pozitiven vzorec), nastavljen prag se uporabi za pretvorbo grafa rezultatov segmentacije v binarni graf, nazadnje pa se uporabijo nekatere agregacijske operacije, kot so povezovanje domen, za pretvorbo rezultatov na ravni pikslov v rezultate zaznave.

Iz zgornjega opisa je razvidno, da ker obstaja operacija, ki uporablja pragove za določanje ospredja in ozadja, je ta operacija indiferenciabilna, zato ni mogoče uporabiti omrežja za vključitev tega dela procesa v omrežje za učenje. Postopek je prikazan z rdečo puščico na zgornji sliki.

1. Struktura omrežja

Struktura omrežja v tem članku je prikazana na naslednji sliki: med postopkom učenja, potem ko je slika vnesena v omrežje, se modra mapa značilnosti na zgornji sliki imenuje F po ekstrakciji značilnosti in povečanju vzorčenja fuzije in konkatne operacije, nato pa verjetnostna preslikava (verjetnostna preslikava) napovedana s F, nato pa pragovna preslikava (pragovna preslikava) napovedana s F, imenovana T, nazadnje pa se izračuna približna binarna preslikava B ^ skozi P in T. Besedilno polje za sklepni proces lahko dobimo z približnim binarnim grafom ali verjetnostnim grafom.

2. Binarno

2.1 Binarizacija standardov

2.2 Diferencirna binarizacija

Zgornja metoda binarizacije ni diferenciabilna, zato je ni mogoče optimizirati pri omrežnem učenju. Za rešitev tega problema ta članek predlaga približno funkcijo korakov:

Izhod zgornje enačbe B ^ predstavlja približen binarni graf, T je pragovni graf učenja, k je faktor, ta članek pa je nastavljen na 50. Diagram te funkcije je zelo podoben zgornji korakalni funkciji, kot je prikazano na sliki A na spodnji sliki.

3. Prilagodljivi prag

Zgoraj opisuje, kako binarno vgraditi P v približen binarni graf B ^ po pridobitvi verjetnostnega grafa P in pragovnega grafa T. Ta razdelek pojasnjuje, kako pridobiti oznake verjetnosti P, praga T in binarnega grafa B^.

3.1 Deformacijska konvolucija

Ker so lahko potrebna velika receptivna polja, članek uporablja deformacijsko konvolucijo na omrežje ResNet-18 ali ResNet-50.

Funkcija izgube

Formula za funkcijo izgube, uporabljena v besedilu, je naslednja:

Sklepajte

Izvirno:Prijava do hiperpovezave je vidna.

Osnovna načela globokega učenja DBNet

Sorodne objave

Ogledi odsekov