Este artículo es un artículo espejo de traducción automática, por favor haga clic aquí para saltar al artículo original.

Vista: 1664|Respuesta: 3

Dos conjuntos de datos comúnmente usados para la detección de objetos, COCO y COV

[Copiar enlace]
Publicado en 30/10/2024 22:35:37 | | |
Problemas a resolver:

¿Qué es un conjunto de datos?
¿Qué son COCO y COV?
¿Qué formato son?

P1: ¿Qué es un conjunto de datos?

Un conjunto de datos, literalmente, es una colección de datos.
Los conjuntos de datos suelen contener datos de muestra usados para entrenar y validar el modelo, que pueden ser en forma de números, texto, imágenes, audio o vídeo.
Los conjuntos de datos se utilizan para entrenar modelos algorítmicos, permitiendo al modelo aprender patrones y patrones en los datos.
Los conjuntos de datos suelen dividirse en:Conjunto de entrenamiento, conjunto de validación y conjunto de pruebasTres subconjuntos.
El conjunto de entrenamiento se utiliza para entrenar el modelo de aprendizaje automático, el conjunto de validación se usa para seleccionar y ajustar los hiperparámetros y la estructura del modelo, y el conjunto de pruebas se emplea para evaluar el rendimiento y la precisión del modelo.
Los conjuntos de entrenamiento, los conjuntos de validación y los conjuntos de prueba son comúnmente entendidos:
Conjunto de entrenamiento: Al igual que una lección para los estudiantes, utilizamos estos datos para enseñar a los modelos de aprendizaje automático a reconocer y procesar información.
Conjuntos de validación: Es como dar a los estudiantes un cuestionario para comprobar qué tan bien está aprendiendo el modelo y ver qué hay que ajustar.
Conjunto de pruebas: Es como dar a los estudiantes un examen final, usando estos datos para evaluar finalmente el rendimiento del modelo y ver si aprende bien.

P2: ¿Qué son COCO y VOC?

COCO (Common Objects in Context) y VOC (Visual Object Classes) son dos conjuntos de datos muy conocidos en el campo de la visión por ordenador, ampliamente utilizados en tareas de reconocimiento de imágenes y detección de objetos.


Crear:


El conjunto de datos COCO fue creado por Microsoft Research.
El conjunto de datos VOC fue creado por el grupo de visión por ordenador de la Universidad de Oxford en el Reino Unido.


Introducir:


COCO es un conjunto de datos a gran escala para reconocimiento de imágenes, segmentación y generación de subtítulos.
Contiene más de 91.000 imágenes, cada una con etiquetado y segmentación detalladas.
El conjunto de datos COCO enfatiza el contexto de los objetos en escenas naturales, es decir, los objetos a menudo aparecen junto a otros objetos y tienen escenas y fondos complejos.
Los conjuntos de datos COCO se utilizan comúnmente para evaluar el rendimiento de tareas como la detección de objetos, la segmentación de imágenes y la generación de leyendas de imágenes.
VOC es un conjunto de datos antiguo de reconocimiento de imágenes y detección de objetos.
Contiene 20.000 imágenes en unas 20 categorías, cada una con referencias de áreas precisas y etiquetas de categoría.
Los conjuntos de datos de COV se centran más en la identificación de categorías y la detección de objetos que en el contexto de las imágenes.
El VOC Challenge es una competición importante en el campo de la visión por ordenador, que promueve el desarrollo de tecnología de detección de objetos y reconocimiento de imágenes.

Peculiaridad:

Los conjuntos de datos de COV se caracterizan por el hecho de que proporcionan una anotación muy precisa, especialmente en tareas de detección de objetos. Los objetos de cada imagen están etiquetados con precisión con una caja rectangular, y cada objeto tiene una etiqueta de categoría. Esta anotación precisa hace que los conjuntos de datos de COV sean ideales para entrenar y probar algoritmos de detección de objetos, ya que pueden aprender a identificar y localizar objetos con precisión en imágenes.
Aunque el conjunto de datos COCO también proporciona anotaciones detalladas, se centra en el reconocimiento de imágenes y la comprensión más amplia de la escena. Las anotaciones en COCO incluyen detección de objetos, segmentación y generación de subtítulos. Esto significa que los datos de COCO incluyen no solo la caja rectangular del objeto, sino también información de escena más compleja y relaciones entre objetos. Por lo tanto, el conjunto de datos COCO es más adecuado para entrenar y probar tareas de visión por ordenador más avanzadas, como la comprensión de escenas, la generación de leyendas de imágenes, etc.

Resumen: VOC puede identificarse y localizarse de forma más rápida y precisa, principalmente porque su método de anotación es muy adecuado para tareas de detección de objetos, mientras que COCO proporciona información de escena más rica y es adecuado para tareas visuales más complejas. Ambos tienen sus propios enfoques y son conjuntos de datos muy importantes en la investigación en visión por ordenador.

P3: ¿Cuáles son sus formatos?

  • El formato de etiquetado de los conjuntos de datos de COV es XML. Cada imagen corresponde a un archivo XML.
  • El formato de etiquetado del conjunto de datos COCO es JSON o txt. Todas las anotaciones de la caja de destino están en el mismo JSON o txt.


Texto original en:El inicio de sesión del hipervínculo es visible.




Anterior:Windows instala la herramienta de gestión del entorno Conda
Próximo:MikroTik (2) prohíbe que un dispositivo acceda a la red externa, solo el acceso interno
 Propietario| Publicado en 1/11/2024 11:39:47 |
El conjunto de datos Coco es un archivo JSON que contiene un total de 5 partes.

{
    "info": info, # información básica sobre el conjunto de datos
    "licencias": [licencia], # licencia
    "imágenes": [imagen], # información de imagen, nombre y altura
    "Anotaciones": [Anotación], # Anotación
    "categorías": [categoría] # información de etiquetas
}
info{ # Descripción de la información del conjunto de datos
    "año": int, # año del conjunto de datos
    "version": str, # dataset version
    "descripción": STR, # descripción del conjunto de datos
    "Contributor": STR, # proveedor de conjuntos de datos
    "URL": STR, # enlace de descarga del conjunto de datos
    "date_created": fecha, hora, # fecha de creación del conjunto de datos
}
license{
    "id": int,
    "nombre": fuerza,
    "URL": STR,
}
Image{ # Images es una lista que almacena toda la información de imagen (dict). Imagen es un dict que almacena información sobre una sola imagen
    "id": int, # número ID de la imagen (único para cada ID de imagen)
    "ancho": int, # ancho de imagen
    "altura": int, # altura de imagen
    "file_name": str, # nombre de la imagen
    "licencia": int, # acuerdo
    "flickr_url": fuerza, # dirección de enlace de flickr
    "coco_url": fuerza, # dirección de conexión de red
    "date_captured": hora de fecha, # fecha de obtención del conjunto de datos
}
Anotación{ # Anotaciones es una lista que almacena toda la información de dictado. Una anotación es un dictado que almacena la información de una anotación de un único objetivo.
    "id": int, # ID de objeto objetivo (único para cada ID de objeto), cada imagen puede tener múltiples objetivos
    "image_id": int, # corresponde al ID de la imagen
    "category_id": int, # corresponde al ID de categoría, correspondiente al ID en las categorías
    "segmentación": RLE o [polígono], segmentación de instancias #, las coordenadas del punto límite del objeto [x1,y1,x2,y2,....,xn,yn]
    "área": flotar, # El área del área del objeto
    "bbox": [xmin,ymin,width,height], # detección de objetos, borde de posicionamiento de objetos[x,y,w,h]
    "iscrowd": 0 o 1, # indica si es un público o no
}
categorías{ # Descripción de categoría
    "id": int, # El ID correspondiente a la categoría (0 se coloca por defecto en el fondo)
    "nombre": STR, # nombre de subcategoría
    "supercategoría": STR, # nombre principal de la categoría
}



Referencia:

El inicio de sesión del hipervínculo es visible.
El inicio de sesión del hipervínculo es visible.
El inicio de sesión del hipervínculo es visible.
El inicio de sesión del hipervínculo es visible.

 Propietario| Publicado en 11/11/2024 9:16:46 |
Formato del conjunto COCO de datos:El inicio de sesión del hipervínculo es visible.


 Propietario| Publicado en 11/11/2024 11:43:50 |
.NET/C# calcula el área de un polígono
https://www.itsvse.com/thread-10870-1-1.html
Renuncia:
Todo el software, materiales de programación o artículos publicados por Code Farmer Network son únicamente para fines de aprendizaje e investigación; El contenido anterior no se utilizará con fines comerciales o ilegales; de lo contrario, los usuarios asumirán todas las consecuencias. La información de este sitio proviene de Internet, y las disputas de derechos de autor no tienen nada que ver con este sitio. Debes eliminar completamente el contenido anterior de tu ordenador en un plazo de 24 horas desde la descarga. Si te gusta el programa, por favor apoya el software genuino, compra el registro y obtén mejores servicios genuinos. Si hay alguna infracción, por favor contáctanos por correo electrónico.

Mail To:help@itsvse.com