Este artigo é um artigo espelhado de tradução automática, por favor clique aqui para ir para o artigo original.

Vista: 1800|Resposta: 0

Os princípios básicos do deep learning DBNet

[Copiar link]
Postado em 19-01-2025 12:26:21 | | | |
Link original:O login do hiperlink está visível.
Link do código original:O login do hiperlink está visível.
A reprodução é melhor:O login do hiperlink está visível.

Atualmente, a detecção de texto pode ser dividida em duas categorias: métodos baseados em regressão e métodos baseados em segmentação. O processo geral de método baseado na segmentação é mostrado na seta azul da figura abaixo: primeiro, o resultado da segmentação de texto da imagem é enviado pela rede (gráfico de probabilidade, se cada pixel é uma amostra positiva), o limiar pré-definido é usado para converter o gráfico de resultado da segmentação em um gráfico binário, e finalmente algumas operações de agregação, como domínios de conexão, são usadas para converter resultados em nível de pixel em resultados de detecção.



Pela descrição acima, pode-se ver que, por haver uma operação que usa limiares para determinar o primeiro plano e o fundo, essa operação é indiferenciável, então não é possível usar a rede para colocar essa parte do processo na rede para treinamento. O processo é mostrado pela seta vermelha na imagem acima.

1. Estrutura da rede

A estrutura da rede neste artigo é mostrada na figura a seguir: durante o processo de treinamento, após a imagem ser inserida na rede, o mapa azul de características na figura acima é chamado F após extração de características e upsampling de fusão e operação de concat, e então o mapa de probabilidade (mapa de probabilidade) é previsto por F chamado P e o mapa de limiar (mapa de limiar) é previsto por F é chamado de T, e finalmente o mapa binário aproximado B ^ é calculado através de P e T. A caixa de texto do processo de inferência pode ser obtida por um grafo binário aproximado ou gráfico de probabilidade.



2. Binário


2.1 Binarização de padrões



2.2 Binarização diferenciável


O método de binarização acima não é diferenciável, portanto não pode ser otimizado no aprendizado de redes. Para resolver esse problema, este artigo propõe uma função de passo aproximada:



A saída da equação acima B ^ representa o gráfico binário aproximado, T é o gráfico limiar do aprendizado de redes, e k é um fator, e este artigo está definido para 50. O diagrama dessa função é muito semelhante à função de passo acima, como mostrado na figura A da figura abaixo.



3. Limiar adaptativo

O acima descreve como binariar P em um grafo binário aproximado B ^ após obter o grafo de probabilidade P e o grafo limiar T. Esta seção explica como obter os rótulos de Probabilidade P, Limiar T e Grafo Binário B^.

3.1 Convolução de deformação

Como podem ser necessários grandes campos receptivos, o artigo aplica convolução de deformação a uma rede de ResNet-18 ou ResNet-50.



Função de perda

A fórmula para a função de perda usada no texto é a seguinte:



deduzir




Original:O login do hiperlink está visível.




Anterior:A série Angular 18 (trinta) cria um espaço de trabalho
Próximo:Converter o modelo da raquete para o formato do modelo ONNX
Disclaimer:
Todo software, material de programação ou artigos publicados pela Code Farmer Network são apenas para fins de aprendizado e pesquisa; O conteúdo acima não deve ser usado para fins comerciais ou ilegais, caso contrário, os usuários terão todas as consequências. As informações deste site vêm da Internet, e disputas de direitos autorais não têm nada a ver com este site. Você deve deletar completamente o conteúdo acima do seu computador em até 24 horas após o download. Se você gosta do programa, por favor, apoie um software genuíno, compre o registro e obtenha serviços genuínos melhores. Se houver qualquer infração, por favor, entre em contato conosco por e-mail.

Mail To:help@itsvse.com