Syväoppimisen DBNetin perusperiaatteet

Pikku roisto · Julkaistu 19.1.2025 12.26.21

Alkuperäinen linkki:Hyperlinkin kirjautuminen on näkyvissä.
Alkuperäinen koodilinkki:Hyperlinkin kirjautuminen on näkyvissä.
Lisääntyminen on parempi:Hyperlinkin kirjautuminen on näkyvissä.

Tällä hetkellä tekstin tunnistus voidaan karkeasti jakaa kahteen kategoriaan: regressiopohjaisiin menetelmiin ja segmentointiin perustuviin menetelmiin. Segmentointiin perustuva yleinen menetelmäprosessi on esitetty alla olevassa kuvassa olevassa sinisessä nuolessa: ensin kuvan tekstin segmentointitulos lähetetään verkon kautta (todennäköisyysgraafi, onko kukin pikseli positiivinen otos), ennalta asetettua kynnystä käytetään segmentointitulosgraafin muuntamiseen binäärikuvaajaksi, ja lopuksi käytetään aggregointitoimintoja, kuten domainien yhdistämistä, pikselitason tulosten muuntamiseen havaitsemistuloksiksi.

Yllä olevasta kuvauksesta voidaan nähdä, että koska on olemassa operaatio, joka käyttää kynnysarvoja etualan ja taustan määrittämiseen, tämä operaatio on erottelukyvytön, joten verkkoa ei voi käyttää tämän prosessin osan siirtämiseen verkkoon koulutusta varten. Prosessi näkyy punaisella nuolella yllä olevassa kuvassa.

1. Verkostorakenne

Tämän artikkelin verkon rakenne on esitetty seuraavassa kuvassa: koulutusprosessin aikana, kun kuva on syötetty verkkoon, yllä olevan kuvan sininen ominaisuuskartta kutsutaan F:ksi ominaisuuksien erottamisen ja ylösnäytteenoton fuusion ja concat-operaation jälkeen, ja sitten todennäköisyyskartta (todennäköisyyskartta) ennustetaan F:llä nimeltä P ja kynnyskartta (kynnyskartta) F:llä T:ksi, ja lopuksi likimääräinen binäärikartta B ^ lasketaan P:n ja T:n kautta. Päättelyprosessin tekstilaatikko voidaan saada likimääräisellä binäärigraafilla tai todennäköisyysgraafilla.

2. Binääri

2.1 Standardien binarisointi

2.2 Derivoituva binarisointi

Yllä mainittu binarisointimenetelmä ei ole derivoituva, joten sitä ei voi optimoida verkkooppimisessa. Tämän ongelman ratkaisemiseksi tässä artikkelissa ehdotetaan likimääräistä askelfunktiota:

Yllä olevan yhtälön B ^ tuloksena on likimääräinen binäärigraafi, T on verkkooppimisen kynnysgraafi ja k on tekijä, ja tämä artikkeli on asetettu arvoon 50. Tämän funktion kaavio on hyvin samankaltainen kuin yllä oleva askelfunktio, kuten alla olevassa kuvassa A on esitetty.

3. Sopeutuva kynnys

Yllä kuvataan, miten binääri P saadaan likimääräiseksi binäärigraafiksi B ^ saatuaan todennäköisyysgraafi P ja kynnysgraafi T. Tässä osiossa selitetään, miten saadaan todennäköisyys P:n, kynnysarvon T ja binäärigraafin B^ tunnisteet.

3.1 Muodonmuutoskonvoluutio

Koska suuria reseptikenttiä voidaan tarvita, artikkeli soveltaa deformaatiokonvoluutiota ResNet-18- tai ResNet-50-verkostoon.

Häviöfunktio

Tekstissä käytetty häviöfunktion kaava on seuraava:

päätellä

Alkuperäinen:Hyperlinkin kirjautuminen on näkyvissä.

Syväoppimisen DBNetin perusperiaatteet

Aiheeseen liittyvät julkaisut

Katsotut osuudet