Questo articolo è un articolo speculare di traduzione automatica, clicca qui per saltare all'articolo originale.

Vista: 1664|Risposta: 3

Due set di dati comunemente utilizzati per il rilevamento di oggetti, COCO e VOC

[Copiato link]
Pubblicato su 30/10/2024 22:35:37 | | |
Problemi da risolvere:

Cos'è un dataset?
Cosa sono COCO e VOC?
Che formato hanno?

D1: Cos'è un dataset?

Un dataset, letteralmente, è una raccolta di dati.
I dataset tipicamente contengono dati campione utilizzati per addestrare e validare il modello, che possono essere sotto forma di numeri, testo, immagini, audio o video.
I dataset vengono utilizzati per addestrare modelli algoritmici, permettendo al modello di apprendere schemi e schemi nei dati.
I dataset sono solitamente suddivisi in:Set di addestramento, set di validazione e set di testTre sottoinsiemi.
Il set di addestramento viene utilizzato per addestrare il modello di machine learning, il set di validazione serve per selezionare e regolare gli iperparametri e la struttura del modello, e il set di test viene utilizzato per valutare le prestazioni e l'accuratezza del modello.
Set di addestramento, set di validazione e set di test sono comunemente compresi:
Set di addestramento: Proprio come una lezione per gli studenti, utilizziamo questi dati per insegnare ai modelli di machine learning come riconoscere ed elaborare le informazioni.
Set di validazione: È come dare agli studenti un quiz per verificare quanto bene il modello stia imparando e vedere cosa deve essere aggiustato.
Set di test: È come dare agli studenti un esame finale, usando questi dati per valutare finalmente le prestazioni del modello e vedere se apprende bene.

D2: Cosa sono COCO e VOC?

COCO (Common Objects in Context) e VOC (Visual Object Classes) sono due dataset ben noti nel campo della visione artificiale, ampiamente utilizzati nel riconoscimento di immagini e nel rilevamento di oggetti.


Creare:


Il dataset COCO è stato creato da Microsoft Research.
Il dataset VOC è stato creato dal gruppo di visione artificiale dell'Università di Oxford nel Regno Unito.


Introdurre:


COCO è un dataset su larga scala per il riconoscimento di immagini, la segmentazione e la generazione di didascalie.
Contiene oltre 91.000 immagini, ciascuna con etichettatura dettagliata e segmentazione.
Il dataset COCO enfatizza il contesto degli oggetti nelle scene naturali, cioè gli oggetti spesso appaiono insieme ad altri oggetti e hanno scene e sfondi complessi.
I dataset COCO sono comunemente utilizzati per valutare le prestazioni di compiti come il rilevamento di oggetti, la segmentazione delle immagini e la generazione delle didascalie delle immagini.
VOC è un vecchio dataset di riconoscimento immagini e rilevamento di oggetti.
Contiene 20.000 immagini in circa 20 categorie, ciascuna con richiami precisi delle aree e etichette di categoria.
I dataset VOC si concentrano maggiormente sull'identificazione delle categorie e sul rilevamento degli oggetti che sul contesto delle immagini.
La VOC Challenge è una competizione importante nel campo della visione artificiale, che promuove lo sviluppo della tecnologia di rilevamento e riconoscimento di immagini.

Peculiarità:

I dataset VOC si caratterizzano per il fatto che forniscono annotazioni molto precise, specialmente nei compiti di rilevamento degli oggetti. Gli oggetti in ogni immagine sono etichettati con precisione con una scatola rettangolare, e ogni oggetto ha un'etichetta di categoria. Questa annotazione precisa rende i dataset VOC ideali per addestrare e testare algoritmi di rilevamento di oggetti, poiché possono imparare a identificare e localizzare con precisione oggetti nelle immagini.
Sebbene il dataset COCO fornisca anch'esso annotazioni dettagliate, si concentra su un riconoscimento più ampio delle immagini e sulla comprensione delle scene. Le annotazioni in COCO includono il rilevamento degli oggetti, la segmentazione e la generazione dei sottotitoli. Ciò significa che i dati di COCO includono non solo la scatola rettangolare dell'oggetto, ma anche informazioni di scena più complesse e relazioni tra oggetti. Pertanto, il dataset COCO è più adatto per addestrare e testare compiti di visione computerizzata più avanzati, come la comprensione delle scene, la generazione di didascalie di immagini, ecc.

Sommario: I VOC possono essere identificati e localizzati più rapidamente e con maggiore precisione, principalmente perché il suo metodo di annotazione è molto adatto per compiti di rilevamento oggetti, mentre COCO fornisce informazioni di scena più ricche ed è adatto a compiti visivi più complessi. Entrambi hanno i loro focus e sono dataset molto importanti nella ricerca sulla visione artificiale.

D3: Quali sono i loro formati?

  • Il formato di etichettatura dei dataset VOC è XML. Ogni immagine corrisponde a un file XML.
  • Il formato di etichettatura del dataset COCO è JSON o txt. Tutte le annotazioni delle caselle target sono nello stesso JSON o txt.


Originale:Il login del link ipertestuale è visibile.




Precedente:Windows installa lo strumento di gestione dell'ambiente Conda
Prossimo:MikroTik (2) vieta a un dispositivo di accedere alla rete esterna, solo l'accesso alla rete interna
 Padrone di casa| Pubblicato su 01/11/2024 11:39:47 |
Il dataset Coco è un file JSON che contiene un totale di 5 parti.

{
    "info": info, # informazioni di base sul dataset
    "Licenze": [Licenza], # Licenza
    "Immagini": [Immagine], # Informazioni sull'immagine, nome e altezza
    "annotazioni": [annotazione], # annotazione
    "categorie": [categoria] # informazioni sul tag
}
info{ # Dataset information description
    "anno": int, # anno dataset
    "version": str, # dataset version
    "Descrizione": STR, # Descrizione del dataset
    "contributore": str, # fornitore di dataset
    "URL": STR, # link download dataset
    "date_created": data-ora, # data di creazione del dataset
}
license{
    "id": int,
    "nome": str,
    "URL": str,
}
Image{ # Images è un elenco che memorizza tutte le informazioni dell'immagine (dict). L'immagine è un dettato che memorizza informazioni su una singola immagine
    "id": int, # ID number dell'immagine (unico per ogni ID immagine)
    "width": int, # larghezza immagine
    "altezza": int, # altezza immagine
    "file_name": str, # nome immagine
    "licenza": int, # accordo
    "flickr_url": str, # indirizzo link flickr
    "coco_url": for, # indirizzo di connessione di rete
    "date_captured": datatime, # data di recupero dataset
}
Annotation{ # Annotations è un elenco che memorizza tutte le informazioni sui ditti. Un'annotazione è un dettato che memorizza un'informazione di annotazione su un singolo bersaglio.
    "id": int, # ID oggetto target (unico per ciascun ID oggetto), ogni immagine può avere più target
    "image_id": int, # corrisponde all'ID immagine
    "category_id": int, # corrisponde all'ID della categoria, corrispondente all'ID nelle categorie
    "segmentazione": RLE o [poligono], segmentazione delle istance #, le coordinate del punto di confine dell'oggetto [x1,y1,x2,y2,....,xn,yn]
    "area": fluttuare, # L'area dell'area dell'oggetto
    "bbox": [xmin,ymin,width,height], # rilevamento oggetti, bordo posizionamento oggetto[x,y,w,h]
    "iscrowd": 0 o 1, # indica se è una folla o meno
}
categorie{ # Descrizione della categoria
    "id": int, # L'ID corrispondente alla categoria (0 predefinito sullo sfondo)
    "name": str, # nome della sottocategoria
    "supercategoria": STR, # nome principale della categoria
}



Riferimento:

Il login del link ipertestuale è visibile.
Il login del link ipertestuale è visibile.
Il login del link ipertestuale è visibile.
Il login del link ipertestuale è visibile.

 Padrone di casa| Pubblicato su 11/11/2024 09:16:46 |
 Padrone di casa| Pubblicato su 11/11/2024 11:43:50 |
.NET/C# calcola l'area di un poligono
https://www.itsvse.com/thread-10870-1-1.html
Disconoscimento:
Tutto il software, i materiali di programmazione o gli articoli pubblicati dalla Code Farmer Network sono destinati esclusivamente all'apprendimento e alla ricerca; I contenuti sopra elencati non devono essere utilizzati per scopi commerciali o illegali, altrimenti gli utenti dovranno sostenere tutte le conseguenze. Le informazioni su questo sito provengono da Internet, e le controversie sul copyright non hanno nulla a che fare con questo sito. Devi eliminare completamente i contenuti sopra elencati dal tuo computer entro 24 ore dal download. Se ti piace il programma, ti preghiamo di supportare software autentico, acquistare la registrazione e ottenere servizi autentici migliori. In caso di violazione, vi preghiamo di contattarci via email.

Mail To:help@itsvse.com