To almindeligt anvendte datasæt til objektdetektion, COCO og VOC

Lille skarn · Opslået på 30/10/2024 22.35.37

Problemer at løse:

Hvad er et datasæt?
Hvad er COCO og VOC'er?
Hvilket format er de?

Q1: Hvad er et datasæt?

Et datasæt er bogstaveligt talt en samling data.
Datasæt indeholder typisk prøvedata, der bruges til at træne og validere modellen, som kan være i form af tal, tekst, billeder, lyd eller video.
Datasæt bruges til at træne algoritmiske modeller, hvilket gør det muligt for modellen at lære mønstre og mønstre i dataene.
Datasæt opdeles normalt i:Træningssæt, valideringssæt og testsætTre undergrupper.
Træningssættet bruges til at træne maskinlæringsmodellen, valideringssættet bruges til at vælge og justere modellens hyperparametre og struktur, og testsættet bruges til at evaluere modellens ydeevne og nøjagtighed.
Træningssæt, valideringssæt og testsæt forstås almindeligvis:
Træningssæt: Ligesom en lektion for eleverne bruger vi disse data til at lære maskinlæringsmodeller, hvordan man genkender og bearbejder information.
Valideringssæt: Det svarer til at give eleverne en quiz for at tjekke, hvor godt modellen lærer, og hvad der skal justeres.
Testsæt: Det er som at give eleverne en afsluttende eksamen, hvor man bruger disse data til endelig at evaluere modellens præstation for at se, om den lærer godt.

Q2: Hvad er COCO og VOC?

COCO (Common Objects in Context) og VOC (Visual Object Classes) er to velkendte datasæt inden for computer vision, som er bredt anvendt i billedgenkendelse og objektdetektionsopgaver.

Skabe:

COCO-datasættet blev oprettet af Microsoft Research.
VOC-datasættet blev skabt af computer vision-gruppen ved University of Oxford i Storbritannien.

Introducere:

COCO er et storskala datasæt til billedgenkendelse, segmentering og billedtekstgenerering.
Den indeholder over 91.000 billeder, hver med detaljeret mærkning og segmentering.
COCO-datasættet lægger vægt på konteksten af objekter i naturlige scener, dvs. objekter optræder ofte sammen med andre objekter og har komplekse scener og baggrunde.
COCO-datasæt bruges ofte til at evaluere ydeevnen af opgaver som objektdetektion, billedsegmentering og billedtekstgenerering.
VOC er et ældre datasæt for billedgenkendelse og objektdetektion.
Den indeholder 20.000 billeder i omkring 20 kategorier, hver med præcise områdemarkeringer og kategorietiketter.
VOC-datasæt fokuserer mere på kategoriidentifikation og objektdetektion end på konteksten af billeder.
VOC Challenge er en vigtig konkurrence inden for computer vision, som fremmer udviklingen af objektdetektion og billedgenkendelsesteknologi.

Ejendommelighed:

VOC-datasæt er kendetegnet ved, at de giver meget præcis annotation, især i objektdetektionsopgaver. Objekterne i hvert billede er præcist mærket med en rektangulær boks, og hvert objekt har en kategorietiket. Denne præcise annotering gør VOC-datasæt ideelle til træning og test af objektdetekteringsalgoritmer, da de kan lære at identificere og lokalisere objekter i billeder nøjagtigt.
Selvom COCO-datasættet også indeholder detaljerede noter, fokuserer det på bredere billedgenkendelse og forståelse af scener. Annotationer i COCO inkluderer objektdetektion, segmentering og undertekstgenerering. Det betyder, at COCOs data ikke kun inkluderer objektets rektangulære boks, men også mere kompleks sceneinformation og relationer mellem objekter. Derfor er COCO-datasættet mere velegnet til træning og test af mere avancerede computer vision-opgaver, såsom sceneforståelse, billedtekstgenerering osv.

Resumé: VOC kan identificeres og lokaliseres hurtigere og mere præcist, primært fordi dets annotationsmetode er meget velegnet til objektdetektionsopgaver, mens COCO giver rigere sceneinformation og er velegnet til mere komplekse visuelle opgaver. Begge har deres egne fokusområder og er meget vigtige datasæt inden for computer vision-forskning.

Q3: Hvad er deres formater?

Mærkningsformatet for VOC-datasæt er XML. Hvert billede svarer til en XML-fil.
Mærkningsformatet for COCO-datasættet er JSON eller txt. Alle målboks-annoteringer er i samme JSON eller txt.

Oprindelig:Hyperlink-login er synlig.

Lille skarn · Opslået på 01/11/2024 11.39.47

Coco-datasættet er en JSON-fil, der indeholder i alt 5 dele.

{
"info": info, # grundlæggende information om datasættet
"licenser": [licens], # licens
"billeder": [billede], # billedinformation, navn og højde
"Annotationer": [Annotation], # Annotation
"kategorier": [kategori] # tag-information
}
info{ # Datasætsinformationsbeskrivelse
"år": int, # datasætsår
"version": STR, # Datasæt-version
"Beskrivelse": STR, # Datasætbeskrivelse
"Bidrager": STR, # Datasætleverandør
"URL": STR, # Datasæt downloadlink
"date_created": datotidspunkt, # dato for datasættets oprettelse
}
licens{
"id": int,
"Navn": STR,
"URL": STR,
}
image{ # images er en liste, der gemmer al image (dict) information. billede er et dikt, der gemmer information om et enkelt billede
"id": int, # ID-nummer for billedet (unikt for hvert billed-ID)
"bredde": int, # billedets bredde
"højde": int, # billedhøjde
"file_name": STR, # Billednavn
"License": int, # aftale
"flickr_url": STR, # Flickr Link Adresse
"coco_url": STR, # netværksforbindelsesadresse
"date_captured": dato og tid, # datasæt hentedato
}
annotation{ # annotations er en liste, der gemmer al dict-information. En annotering er et dikt, der gemmer information om en enkelt målannotation.
"id": int, # Målobjekt-ID (unikt for hvert objekt-ID), hvert billede kan have flere mål
"image_id": int, # svarer til billed-ID'et
"category_id": int, # svarer til kategori-ID'et, svarende til ID'et i kategorierne
"segmentering": RLE eller [polygon], # instanssegmentering, randpunktkoordinaterne for objektet [x1,y1,x2,y2,....,xn,yn]
"område": flyd, # Arealet af objektets område
"bbox": [xmin,ymin,bredde,højde], # objektdetektion, objektpositioneringskant[x,y,w,h]
"iscrowd": 0 eller 1, # angiver, om det er en crowd eller ej
}
kategorier{ # Kategoribeskrivelse
"id": int, # ID'et svarende til kategorien (0 er standard i baggrunden)
"Navn": STR, # Underkategorinavn
"Superkategori": STR, # Hovedkategorinavn
}

Henvisning:

Hyperlink-login er synlig.
Hyperlink-login er synlig.
Hyperlink-login er synlig.
Hyperlink-login er synlig.

Lille skarn · Opslået på 11/11/2024 09.16.46

Data COCO Sæt Format:Hyperlink-login er synlig.

Lille skarn · Opslået på 11/11/2024 11.43.50

.NET/C# beregner arealet af en polygon
https://www.itsvse.com/thread-10870-1-1.html

To almindeligt anvendte datasæt til objektdetektion, COCO og VOC

Relaterede indlæg

Afsnit set