Link original:O login do hiperlink está visível. Link do código original:O login do hiperlink está visível. A reprodução é melhor:O login do hiperlink está visível.
Atualmente, a detecção de texto pode ser dividida em duas categorias: métodos baseados em regressão e métodos baseados em segmentação. O processo geral de método baseado na segmentação é mostrado na seta azul da figura abaixo: primeiro, o resultado da segmentação de texto da imagem é enviado pela rede (gráfico de probabilidade, se cada pixel é uma amostra positiva), o limiar pré-definido é usado para converter o gráfico de resultado da segmentação em um gráfico binário, e finalmente algumas operações de agregação, como domínios de conexão, são usadas para converter resultados em nível de pixel em resultados de detecção.
Pela descrição acima, pode-se ver que, por haver uma operação que usa limiares para determinar o primeiro plano e o fundo, essa operação é indiferenciável, então não é possível usar a rede para colocar essa parte do processo na rede para treinamento. O processo é mostrado pela seta vermelha na imagem acima.
1. Estrutura da rede
A estrutura da rede neste artigo é mostrada na figura a seguir: durante o processo de treinamento, após a imagem ser inserida na rede, o mapa azul de características na figura acima é chamado F após extração de características e upsampling de fusão e operação de concat, e então o mapa de probabilidade (mapa de probabilidade) é previsto por F chamado P e o mapa de limiar (mapa de limiar) é previsto por F é chamado de T, e finalmente o mapa binário aproximado B ^ é calculado através de P e T. A caixa de texto do processo de inferência pode ser obtida por um grafo binário aproximado ou gráfico de probabilidade.
2. Binário
2.1 Binarização de padrões
2.2 Binarização diferenciável
O método de binarização acima não é diferenciável, portanto não pode ser otimizado no aprendizado de redes. Para resolver esse problema, este artigo propõe uma função de passo aproximada:
A saída da equação acima B ^ representa o gráfico binário aproximado, T é o gráfico limiar do aprendizado de redes, e k é um fator, e este artigo está definido para 50. O diagrama dessa função é muito semelhante à função de passo acima, como mostrado na figura A da figura abaixo.
3. Limiar adaptativo
O acima descreve como binariar P em um grafo binário aproximado B ^ após obter o grafo de probabilidade P e o grafo limiar T. Esta seção explica como obter os rótulos de Probabilidade P, Limiar T e Grafo Binário B^.
3.1 Convolução de deformação
Como podem ser necessários grandes campos receptivos, o artigo aplica convolução de deformação a uma rede de ResNet-18 ou ResNet-50.
Função de perda
A fórmula para a função de perda usada no texto é a seguinte:
deduzir
Original:O login do hiperlink está visível.
|