Questo articolo è un articolo speculare di traduzione automatica, clicca qui per saltare all'articolo originale.

Vista: 1800|Risposta: 0

I principi base del deep learning DBNet

[Copiato link]
Pubblicato il 19-01-2025 12:26:21 | | | |
Link originale:Il login del link ipertestuale è visibile.
Collegamento al codice originale:Il login del link ipertestuale è visibile.
La riproduzione è migliore:Il login del link ipertestuale è visibile.

Attualmente, il rilevamento del testo può essere suddiviso grossomodo in due categorie: metodi basati su regressione e metodi basati su segmentazione. Il processo generale basato sulla segmentazione è mostrato nella freccia blu nella figura sottostante: innanzitutto, il risultato di segmentazione del testo dell'immagine viene inviato attraverso la rete (grafico di probabilità, se ogni pixel è un campione positivo), la soglia preimpostata viene utilizzata per convertire il grafico del risultato della segmentazione in un grafico binario, e infine alcune operazioni di aggregazione come i domini di collegamento vengono utilizzate per convertire i risultati a livello di pixel in risultati di rilevamento.



Dalla descrizione sopra, si può vedere che, poiché esiste un'operazione che utilizza soglie per determinare il primo piano e lo sfondo, questa operazione è indifferenziabile, quindi non è possibile utilizzare la rete per inserire questa parte del processo nella rete per l'addestramento. Il processo è mostrato dalla freccia rossa nell'immagine sopra.

1. Struttura della rete

La struttura della rete in questo articolo è mostrata nella figura seguente: durante il processo di addestramento, dopo che l'immagine è stata inserita nella rete, la mappa blu delle caratteristiche nella figura sopra viene chiamata F dopo estrazione delle caratteristiche e upsampling di fusione e operazioni di concatt, poi la mappa di probabilità (mappa di probabilità) viene prevista da F chiamata P e la mappa di soglia (mappa di soglia) viene prevista da F chiamata T, e infine la mappa binaria approssimativa B ^ viene calcolata tramite P e T. La casella di testo del processo di inferenza può essere ottenuta tramite grafo binario approssimato o grafo di probabilità.



2. Binario


2.1 Binarizzazione degli standard



2.2 Binarizzazione differenziabile


Il metodo di binarizzazione sopra descritto non è differenziabile, quindi non può essere ottimizzato nell'apprendimento di rete. Per risolvere questo problema, questo articolo propone una funzione a passo approssimato:



L'output dell'equazione sopra B ^ rappresenta il grafo binario approssimativo, T è il grafo soglia dell'apprendimento delle reti, e k è un fattore, e questo articolo è impostato a 50. Il diagramma di questa funzione è molto simile a quello a passo sopra, come mostrato nella figura A nella figura sottostante.



3. Soglia adattativa

Quanto sopra descrive come binarizzare P in un grafo binario approssimato B ^ dopo aver ottenuto il grafo di probabilità P e il grafo soglia T. Questa sezione spiega come ottenere le etichette di Probabilità P, Soglia T e Grafo Binario B^.

3.1 Convoluzione della deformazione

Poiché potrebbero essere necessari grandi campi ricettivi, l'articolo applica la convoluzione di deformazione a una rete di ResNet-18 o ResNet-50.



Funzione di perdita

La formula per la funzione di perdita usata nel testo è la seguente:



Dedurre




Originale:Il login del link ipertestuale è visibile.




Precedente:La serie Angular 18 (trenta) crea uno spazio di lavoro
Prossimo:Converti il modello a palette nel formato modello ONNX
Disconoscimento:
Tutto il software, i materiali di programmazione o gli articoli pubblicati dalla Code Farmer Network sono destinati esclusivamente all'apprendimento e alla ricerca; I contenuti sopra elencati non devono essere utilizzati per scopi commerciali o illegali, altrimenti gli utenti dovranno sostenere tutte le conseguenze. Le informazioni su questo sito provengono da Internet, e le controversie sul copyright non hanno nulla a che fare con questo sito. Devi eliminare completamente i contenuti sopra elencati dal tuo computer entro 24 ore dal download. Se ti piace il programma, ti preghiamo di supportare software autentico, acquistare la registrazione e ottenere servizi autentici migliori. In caso di violazione, vi preghiamo di contattarci via email.

Mail To:help@itsvse.com