Süvaõppe DBNet'i põhialused

Väike sodi · Postitatud 19.01.2025 12:26:21

Originaallink:Hüperlingi sisselogimine on nähtav.
Originaalne koodilink:Hüperlingi sisselogimine on nähtav.
Paljunemine on parem:Hüperlingi sisselogimine on nähtav.

Praegu võib tekstituvastuse jagada umbkaudu kaheks kategooriaks: regressioonipõhised meetodid ja segmenteerimispõhised meetodid. Üldine meetodiprotsess, mis põhineb segmenteerimisel, on näidatud sinises nooles alloleval joonisel: esmalt väljastatakse pildi tekstisegmentatsiooni tulemus läbi võrgu (tõenäosusgraafik, kas iga piksel on positiivne valim), eelmääratud lävi kasutatakse segmentatsiooni tulemuse graafiku teisendamiseks binaargraafikuks ning lõpuks kasutatakse mõningaid agregeerimistoiminguid, nagu domeenide ühendamine, et teisendada pikslitaseme tulemused tuvastustulemusteks.

Ülaltoodud kirjeldusest on näha, et kuna on olemas operatsioon, mis kasutab läveväärtusi esiplaani ja tausta määramiseks, on see operatsioon diferentseerimatu, mistõttu ei ole võimalik võrku kasutada selle protsessi osa koolitamiseks võrku. Protsessi näitab ülaloleval pildil punane nool.

1. Võrgustruktuur

Võrgu struktuur selles artiklis on näidatud järgmisel joonisel: treeningprotsessi käigus, pärast pildi sisestamist võrku, nimetatakse ülaltoodud joonisel sinist tunnuskaarti F-ks pärast tunnuste eraldamist ja ülesproovimise fusiooni ning kokkupaneku operatsiooni, seejärel prognoositakse tõenäosuskaarti (tõenäosuskaart) F poolt nimega P ja lävekaarti (lävekaart) ennustab F nimega T, ning lõpuks arvutatakse ligikaudne binaarne kaart B ^ P ja T kaudu. Järeldamisprotsessi tekstikasti saab saada ligikaudse binaargraafi või tõenäosusgraafi abil.

2. Binaarne

2.1 Standardite binariseerimine

2.2 Diferentseeruv binariseerimine

Ülaltoodud binariseerimise meetod ei ole diferentseeruv, seega ei saa seda võrguõppes optimeerida. Selle probleemi lahendamiseks pakub käesolev artikkel umbkaudset sammufunktsiooni:

Ülaltoodud võrrandi B ^ väljund esindab ligikaudset binaargraafi, T on võrguõppe lävegraaf ja k on tegur, ning see artikkel on seatud väärtusele 50. Selle funktsiooni diagramm on väga sarnane ülaltoodud astmefunktsioonile, nagu näidatud alloleva joonise A joonisel.

3. Kohanduv lävi

Ülaltoodud kirjeldatakse, kuidas binaarne P saada ligikaudseks binaargraafiks B ^ pärast tõenäosusgraafi P ja lävegraafi T saamist. See osa selgitab, kuidas saada tõenäosuse P, lävi T ja binaargraafi B^ sildid.

3.1 Deformatsioonikonvolutsioon

Kuna võivad olla vajalikud suured vastuvõtuväljad, rakendab artikkel deformatsioonikonvolutsiooni ResNet-18 või ResNet-50 võrgule.

Kaotuse funktsioon

Kaotuse funktsiooni valem, mida tekstis kasutatakse, on järgmine:

järeldus

Originaal:Hüperlingi sisselogimine on nähtav.

Süvaõppe DBNet'i põhialused

Seotud postitused

Vaadatud sektsioonid