Två vanligt använda datamängder för objektdetektering, COCO och VOC

Lilla avskum · Publicerad på 2024-10-30 22:35:37

Problem att lösa:

Vad är en datamängd?
Vad är COCO och VOC?
Vilket format har de?

F1: Vad är en datamängd?

En datamängd är bokstavligen en samling data.
Dataset innehåller vanligtvis exempeldata som används för att träna och validera modellen, vilka kan vara i form av siffror, text, bilder, ljud eller video.
Dataset används för att träna algoritmiska modeller, vilket gör det möjligt för modellen att lära sig mönster och mönster i datan.
Dataset delas vanligtvis in i:Träningsset, valideringsset och testsetTre delmängder.
Träningsuppsättningen används för att träna maskininlärningsmodellen, valideringsuppsättningen används för att välja och justera modellens hyperparametrar och struktur, och testuppsättningen används för att utvärdera modellens prestanda och noggrannhet.
Träningsset, valideringsset och testset förstås vanligtvis:
Utbildningsuppsättning: Precis som en lektion för eleverna använder vi denna data för att lära maskininlärningsmodeller hur man känner igen och bearbetar information.
Valideringsset: Det är som att ge eleverna ett quiz för att kontrollera hur väl modellen lär sig och vad som behöver justeras.
Testset: Det är som att ge eleverna ett slutprov, där man använder dessa data för att slutligen utvärdera modellens prestanda och se om den lär sig bra.

F2: Vad är COCO och VOC?

COCO (Common Objects in Context) och VOC (Visual Object Classes) är två välkända datamängder inom datorseende, som används i stor utsträckning vid bildigenkänning och objektdetektering.

Skapa:

COCO-datasetet skapades av Microsoft Research.
VOC-datasetet skapades av datorvisionsgruppen vid University of Oxford i Storbritannien.

Introducera:

COCO är en storskalig datamängd för bildigenkänning, segmentering och bildtextgenerering.
Den innehåller över 91 000 bilder, var och en med detaljerad märkning och segmentering.
COCO-datasetet betonar kontexten för objekt i naturliga scener, det vill säga objekt förekommer ofta tillsammans med andra objekt och har komplexa scener och bakgrunder.
COCO-dataset används ofta för att utvärdera prestandan hos uppgifter som objektdetektering, bildsegmentering och bildtextgenerering.
VOC är en äldre bildigenkänning och objektdetekteringsdataset.
Den innehåller 20 000 bilder i cirka 20 kategorier, var och en med exakta områdesmarkeringar och kategorietiketter.
VOC-dataset fokuserar mer på kategoriidentifiering och objektdetektering än på bildkontexten.
VOC Challenge är en viktig tävling inom datorseende, som främjar utvecklingen av objektdetektering och bildigenkänningsteknologi.

Egendomlighet:

VOC-dataset kännetecknas av att de ger mycket exakt annotering, särskilt vid objektdetekteringsuppgifter. Objekten i varje bild är exakt märkta med en rektangulär ruta, och varje objekt har en kategorietikett. Denna precisa annotering gör VOC-dataset idealiska för träning och testning av objektdetekteringsalgoritmer, eftersom de kan lära sig att noggrant identifiera och lokalisera objekt i bilder.
Även om COCO-datasetet också ger detaljerade annoteringar, fokuserar det på bredare bildigenkänning och scener. Annotationer i COCO inkluderar objektdetektering, segmentering och undertextgenerering. Detta innebär att COCO:s data inte bara inkluderar objektets rektangulära ruta, utan även mer komplex sceninformation och relationer mellan objekten. Därför är COCO-datasetet mer lämpligt för träning och testning av mer avancerade datorseendeuppgifter, såsom scenförståelse, bildtextgenerering med mera.

Sammanfattning: VOC kan identifieras och lokaliseras snabbare och mer exakt, främst eftersom dess annoteringsmetod är mycket lämplig för objektdetekteringsuppgifter, medan COCO ger rikare sceninformation och är lämplig för mer komplexa visuella uppgifter. Båda har sina egna inriktningar och är mycket viktiga datamängder inom datorseendeforskning.

F3: Vilka format har de?

Märkningsformatet för VOC-dataset är XML. Varje bild motsvarar en XML-fil.
Märkningsformatet för COCO-datasetet är JSON eller txt. Alla målbox-annoteringar är i samma JSON eller txt.

Original:Inloggningen med hyperlänken är synlig.

Lilla avskum · Publicerad på 2024-11-01 11:39:47

Coco-datasetet är en JSON-fil som innehåller totalt 5 delar.

{
"info": info, # grundläggande information om datasetet
"licenser": [licens], # licens
"bilder": [bild], # bildinformation, namn och höjd
"Annoteringar": [Annotation], # Annotation
"Kategorier": [Kategori] # Tagginformation
}
info{ # Dataset-informationsbeskrivning
"år": int, # dataset år
"version": STR, # Dataset-version
"Beskrivning": STR, # Datasetbeskrivning
"Bidragsgivare": STR, # Datasetleverantör
"URL": STR, # Dataset nedladdningslänk
"date_created": datumtid, # datasetets skapandedatum
}
licens{
"id": int,
"Namn": STR,
"URL": STR,
}
image{ # images är en lista som lagrar all information om image (dict). Bild är ett dikt som lagrar information om en enda bild
"id": int, # ID-nummer för bilden (unikt för varje bild-ID)
"bredd": int, # bildbredd
"höjd": int, # bildhöjd
"file_name": ST, # Bildnamn
"licens": int, # avtal
"flickr_url": STR, # flickr-länkadress
"coco_url": STR, # nätverksanslutningsadress
"date_captured": datumtid, # dataset hämtadatum
}
Annotation{ # Annotations är en lista som lagrar all diktinformation. En annotering är en dikt som lagrar information om annotering av ett enda mål.
"id": int, # Målobjekt-ID (unikt för varje objekt-ID), varje bild kan ha flera mål
"image_id": int, # motsvarar bild-ID
"category_id": int, # motsvarar kategori-ID:t, motsvarande ID:t i kategorierna
"segmentering": RLE eller [polygon], # instanssegmentering, gränspunktskoordinaterna för objektet [x1,y1,x2,y2,....,xn,yn]
"area": float, # Området av objektets area
"bbox": [xmin,ymin,bredd,höjd], # objektdetektion, objektpositioneringsgräns[x,y,w,h]
"iscrowd": 0 eller 1, # indikerar om det är en folkmassa eller inte
}
kategorier{ # Kategoribeskrivning
"id": int, # ID:t som motsvarar kategorin (0 är som standard i bakgrunden)
"Namn": STR, # Underkategorinamn
"Superkategori": STR, # Huvudkategorinamn
}

Hänvisning:

Inloggningen med hyperlänken är synlig.
Inloggningen med hyperlänken är synlig.
Inloggningen med hyperlänken är synlig.
Inloggningen med hyperlänken är synlig.

Lilla avskum · Publicerad på 2024-11-11 09:16:46

Data COCO-setformat:Inloggningen med hyperlänken är synlig.

Lilla avskum · Publicerad på 2024-11-11 11:43:50

.NET/C# beräknar arean av en polygon
https://www.itsvse.com/thread-10870-1-1.html

Två vanligt använda datamängder för objektdetektering, COCO och VOC

Relaterade inlägg

Avsnitt som ses