Este artículo es un artículo espejo de traducción automática, por favor haga clic aquí para saltar al artículo original.

Vista: 1800|Respuesta: 0

Los principios básicos del aprendizaje profundo DBNet

[Copiar enlace]
Publicado el 19-1-2025 12:26:21 | | | |
Enlace original:El inicio de sesión del hipervínculo es visible.
Enlace original al código:El inicio de sesión del hipervínculo es visible.
La reproducción es mejor:El inicio de sesión del hipervínculo es visible.

Actualmente, la detección de texto puede dividirse aproximadamente en dos categorías: métodos basados en regresión y métodos basados en segmentación. El proceso general basado en la segmentación se muestra en la flecha azul de la figura siguiente: primero, el resultado de segmentación de texto de la imagen se envía a través de la red (gráfico de probabilidad, si cada píxel es una muestra positiva), se utiliza el umbral preestablecido para convertir el gráfico de resultados de segmentación en un gráfico binario, y finalmente algunas operaciones de agregación, como dominios de conexión, se emplean para convertir resultados a nivel de píxel en resultados de detección.



De la descripción anterior, se puede ver que, dado que existe una operación que utiliza umbrales para determinar el primer plano y el fondo, esta operación es indiferenciable, por lo que no es posible usar la red para integrar esta parte del proceso en la red para entrenamiento. El proceso se muestra con la flecha roja en la imagen de arriba.

1. Estructura de la red

La estructura de la red en este artículo se muestra en la siguiente figura: durante el proceso de entrenamiento, después de introducir la imagen en la red, el mapa azul de características en la figura anterior se llama F tras la extracción de características y el aumento de muestreo de la operación de fusión y concat, y luego el mapa de probabilidad (mapa de probabilidad) se predice con F y el mapa umbral (mapa umbral) se predice por F se llama T, y finalmente el mapa binario aproximado B ^ se calcula a través de P y T. La caja de texto del proceso de inferencia puede obtenerse mediante un grafo binario aproximado o un grafo de probabilidad.



2. Binario


2.1 Binarización de estándares



2.2 Binarización diferenciable


El método de binarización anterior no es diferenciable, por lo que no puede optimizarse en el aprendizaje de redes. Para resolver este problema, este artículo propone una función escalonada aproximada:



La salida de la ecuación anterior B ^ representa el grafo binario aproximado, T es el grafo umbral del aprendizaje de redes, y k es un factor, y este artículo está fijado en 50. El diagrama de esta función es muy similar a la función escalonada anterior, como se muestra en la figura A de la figura siguiente.



3. Umbral adaptativo

Lo anterior describe cómo convertir P en un grafo binario aproximado B ^ tras obtener el grafo de probabilidad P y el grafo umbral T. Esta sección explica cómo obtener las etiquetas de Probabilidad P, Umbral T y Grafo Binario B^.

3.1 Convolución de deformación

Debido a que pueden requerirse grandes campos receptivos, el artículo aplica la convolución de deformación a una red de ResNet-18 o ResNet-50.



Función de pérdida

La fórmula para la función de pérdida utilizada en el texto es la siguiente:



deducir




Texto original en:El inicio de sesión del hipervínculo es visible.




Anterior:La serie Angular 18 (treinta) crea un espacio de trabajo
Próximo:Convierte el modelo de paletas al formato ONNX
Renuncia:
Todo el software, materiales de programación o artículos publicados por Code Farmer Network son únicamente para fines de aprendizaje e investigación; El contenido anterior no se utilizará con fines comerciales o ilegales; de lo contrario, los usuarios asumirán todas las consecuencias. La información de este sitio proviene de Internet, y las disputas de derechos de autor no tienen nada que ver con este sitio. Debes eliminar completamente el contenido anterior de tu ordenador en un plazo de 24 horas desde la descarga. Si te gusta el programa, por favor apoya el software genuino, compra el registro y obtén mejores servicios genuinos. Si hay alguna infracción, por favor contáctanos por correo electrónico.

Mail To:help@itsvse.com