Los principios básicos del aprendizaje profundo DBNet

Pequeña basura · Publicado en 19/1/2025 12:26:21

Enlace original:El inicio de sesión del hipervínculo es visible.
Enlace original al código:El inicio de sesión del hipervínculo es visible.
La reproducción es mejor:El inicio de sesión del hipervínculo es visible.

Actualmente, la detección de texto puede dividirse aproximadamente en dos categorías: métodos basados en regresión y métodos basados en segmentación. El proceso general basado en la segmentación se muestra en la flecha azul de la figura siguiente: primero, el resultado de segmentación de texto de la imagen se envía a través de la red (gráfico de probabilidad, si cada píxel es una muestra positiva), se utiliza el umbral preestablecido para convertir el gráfico de resultados de segmentación en un gráfico binario, y finalmente algunas operaciones de agregación, como dominios de conexión, se emplean para convertir resultados a nivel de píxel en resultados de detección.

De la descripción anterior, se puede ver que, dado que existe una operación que utiliza umbrales para determinar el primer plano y el fondo, esta operación es indiferenciable, por lo que no es posible usar la red para integrar esta parte del proceso en la red para entrenamiento. El proceso se muestra con la flecha roja en la imagen de arriba.

1. Estructura de la red

La estructura de la red en este artículo se muestra en la siguiente figura: durante el proceso de entrenamiento, después de introducir la imagen en la red, el mapa azul de características en la figura anterior se llama F tras la extracción de características y el aumento de muestreo de la operación de fusión y concat, y luego el mapa de probabilidad (mapa de probabilidad) se predice con F y el mapa umbral (mapa umbral) se predice por F se llama T, y finalmente el mapa binario aproximado B ^ se calcula a través de P y T. La caja de texto del proceso de inferencia puede obtenerse mediante un grafo binario aproximado o un grafo de probabilidad.

2. Binario

2.1 Binarización de estándares

2.2 Binarización diferenciable

El método de binarización anterior no es diferenciable, por lo que no puede optimizarse en el aprendizaje de redes. Para resolver este problema, este artículo propone una función escalonada aproximada:

La salida de la ecuación anterior B ^ representa el grafo binario aproximado, T es el grafo umbral del aprendizaje de redes, y k es un factor, y este artículo está fijado en 50. El diagrama de esta función es muy similar a la función escalonada anterior, como se muestra en la figura A de la figura siguiente.

3. Umbral adaptativo

Lo anterior describe cómo convertir P en un grafo binario aproximado B ^ tras obtener el grafo de probabilidad P y el grafo umbral T. Esta sección explica cómo obtener las etiquetas de Probabilidad P, Umbral T y Grafo Binario B^.

3.1 Convolución de deformación

Debido a que pueden requerirse grandes campos receptivos, el artículo aplica la convolución de deformación a una red de ResNet-18 o ResNet-50.

Función de pérdida

La fórmula para la función de pérdida utilizada en el texto es la siguiente:

deducir

Texto original en:El inicio de sesión del hipervínculo es visible.

Los principios básicos del aprendizaje profundo DBNet

Publicaciones relacionadas

Secciones vistas