Link originale:Il login del link ipertestuale è visibile. Collegamento al codice originale:Il login del link ipertestuale è visibile. La riproduzione è migliore:Il login del link ipertestuale è visibile.
Attualmente, il rilevamento del testo può essere suddiviso grossomodo in due categorie: metodi basati su regressione e metodi basati su segmentazione. Il processo generale basato sulla segmentazione è mostrato nella freccia blu nella figura sottostante: innanzitutto, il risultato di segmentazione del testo dell'immagine viene inviato attraverso la rete (grafico di probabilità, se ogni pixel è un campione positivo), la soglia preimpostata viene utilizzata per convertire il grafico del risultato della segmentazione in un grafico binario, e infine alcune operazioni di aggregazione come i domini di collegamento vengono utilizzate per convertire i risultati a livello di pixel in risultati di rilevamento.
Dalla descrizione sopra, si può vedere che, poiché esiste un'operazione che utilizza soglie per determinare il primo piano e lo sfondo, questa operazione è indifferenziabile, quindi non è possibile utilizzare la rete per inserire questa parte del processo nella rete per l'addestramento. Il processo è mostrato dalla freccia rossa nell'immagine sopra.
1. Struttura della rete
La struttura della rete in questo articolo è mostrata nella figura seguente: durante il processo di addestramento, dopo che l'immagine è stata inserita nella rete, la mappa blu delle caratteristiche nella figura sopra viene chiamata F dopo estrazione delle caratteristiche e upsampling di fusione e operazioni di concatt, poi la mappa di probabilità (mappa di probabilità) viene prevista da F chiamata P e la mappa di soglia (mappa di soglia) viene prevista da F chiamata T, e infine la mappa binaria approssimativa B ^ viene calcolata tramite P e T. La casella di testo del processo di inferenza può essere ottenuta tramite grafo binario approssimato o grafo di probabilità.
2. Binario
2.1 Binarizzazione degli standard
2.2 Binarizzazione differenziabile
Il metodo di binarizzazione sopra descritto non è differenziabile, quindi non può essere ottimizzato nell'apprendimento di rete. Per risolvere questo problema, questo articolo propone una funzione a passo approssimato:
L'output dell'equazione sopra B ^ rappresenta il grafo binario approssimativo, T è il grafo soglia dell'apprendimento delle reti, e k è un fattore, e questo articolo è impostato a 50. Il diagramma di questa funzione è molto simile a quello a passo sopra, come mostrato nella figura A nella figura sottostante.
3. Soglia adattativa
Quanto sopra descrive come binarizzare P in un grafo binario approssimato B ^ dopo aver ottenuto il grafo di probabilità P e il grafo soglia T. Questa sezione spiega come ottenere le etichette di Probabilità P, Soglia T e Grafo Binario B^.
3.1 Convoluzione della deformazione
Poiché potrebbero essere necessari grandi campi ricettivi, l'articolo applica la convoluzione di deformazione a una rete di ResNet-18 o ResNet-50.
Funzione di perdita
La formula per la funzione di perdita usata nel testo è la seguente:
Dedurre
Originale:Il login del link ipertestuale è visibile.
|