Os princípios básicos do deep learning DBNet

Pequeno · Publicado em 19/01/2025 12:26:21

Link original:O login do hiperlink está visível.
Link do código original:O login do hiperlink está visível.
A reprodução é melhor:O login do hiperlink está visível.

Atualmente, a detecção de texto pode ser dividida em duas categorias: métodos baseados em regressão e métodos baseados em segmentação. O processo geral de método baseado na segmentação é mostrado na seta azul da figura abaixo: primeiro, o resultado da segmentação de texto da imagem é enviado pela rede (gráfico de probabilidade, se cada pixel é uma amostra positiva), o limiar pré-definido é usado para converter o gráfico de resultado da segmentação em um gráfico binário, e finalmente algumas operações de agregação, como domínios de conexão, são usadas para converter resultados em nível de pixel em resultados de detecção.

Pela descrição acima, pode-se ver que, por haver uma operação que usa limiares para determinar o primeiro plano e o fundo, essa operação é indiferenciável, então não é possível usar a rede para colocar essa parte do processo na rede para treinamento. O processo é mostrado pela seta vermelha na imagem acima.

1. Estrutura da rede

A estrutura da rede neste artigo é mostrada na figura a seguir: durante o processo de treinamento, após a imagem ser inserida na rede, o mapa azul de características na figura acima é chamado F após extração de características e upsampling de fusão e operação de concat, e então o mapa de probabilidade (mapa de probabilidade) é previsto por F chamado P e o mapa de limiar (mapa de limiar) é previsto por F é chamado de T, e finalmente o mapa binário aproximado B ^ é calculado através de P e T. A caixa de texto do processo de inferência pode ser obtida por um grafo binário aproximado ou gráfico de probabilidade.

2. Binário

2.1 Binarização de padrões

2.2 Binarização diferenciável

O método de binarização acima não é diferenciável, portanto não pode ser otimizado no aprendizado de redes. Para resolver esse problema, este artigo propõe uma função de passo aproximada:

A saída da equação acima B ^ representa o gráfico binário aproximado, T é o gráfico limiar do aprendizado de redes, e k é um fator, e este artigo está definido para 50. O diagrama dessa função é muito semelhante à função de passo acima, como mostrado na figura A da figura abaixo.

3. Limiar adaptativo

O acima descreve como binariar P em um grafo binário aproximado B ^ após obter o grafo de probabilidade P e o grafo limiar T. Esta seção explica como obter os rótulos de Probabilidade P, Limiar T e Grafo Binário B^.

3.1 Convolução de deformação

Como podem ser necessários grandes campos receptivos, o artigo aplica convolução de deformação a uma rede de ResNet-18 ou ResNet-50.

Função de perda

A fórmula para a função de perda usada no texto é a seguinte:

deduzir

Original:O login do hiperlink está visível.

Os princípios básicos do deep learning DBNet

Posts Relacionados

Seções visualizadas