To ofte brukte datasett for objektdeteksjon, COCO og VOC

Lille skurk · Publisert på 30.10.2024 22:35:37

Problemer å løse:

Hva er et datasett?
Hva er COCO og VOC-er?
Hvilket format er de?

Spørsmål 1: Hva er et datasett?

Et datasett er bokstavelig talt en samling data.
Datasett inneholder vanligvis prøvedata som brukes til å trene og validere modellen, som kan være i form av tall, tekst, bilder, lyd eller video.
Datasett brukes til å trene algoritmiske modeller, slik at modellen kan lære mønstre og mønstre i dataene.
Datasett deles vanligvis inn i:Treningssett, valideringssett og testsettTre delmengder.
Treningssettet brukes til å trene maskinlæringsmodellen, valideringssettet brukes til å velge og justere modellens hyperparametere og struktur, og testsettet brukes til å evaluere modellens ytelse og nøyaktighet.
Treningssett, valideringssett og testsett forstås vanligvis:
Treningssett: Akkurat som en leksjon for elever, bruker vi disse dataene til å lære maskinlæringsmodeller hvordan de skal gjenkjenne og bearbeide informasjon.
Valideringssett: Det er som å gi elevene en quiz for å sjekke hvor godt modellen lærer og hva som må justeres.
Testsett: Det er som å gi studentene en avsluttende eksamen, og bruke disse dataene til endelig å evaluere modellens ytelse for å se om den lærer godt.

Spørsmål 2: Hva er COCO og VOC?

COCO (Common Objects in Context) og VOC (Visual Object Classes) er to velkjente datasett innen datamaskinsyn, som er mye brukt i bildegjenkjenning og objektdeteksjonsoppgaver.

Skape:

COCO-datasettet ble opprettet av Microsoft Research.
VOC-datasettet ble laget av datamaskinvisjonsgruppen ved University of Oxford i Storbritannia.

Innføre:

COCO er et storskala datasett for bildegjenkjenning, segmentering og bildetekstgenerering.
Den inneholder over 91 000 bilder, hver med detaljert merking og segmentering.
COCO-datasettet legger vekt på konteksten til objekter i naturlige scener, det vil si at objekter ofte vises sammen med andre objekter og har komplekse scener og bakgrunner.
COCO-datasett brukes ofte til å evaluere ytelsen til oppgaver som objektdeteksjon, bildesegmentering og bildetekstgenerering.
VOC er et eldre datasett for bildegjenkjenning og objektdeteksjon.
Den inneholder 20 000 bilder i omtrent 20 kategorier, hver med presise områdemarkeringer og kategorietiketter.
VOC-datasett fokuserer mer på kategoriidentifikasjon og objektdeteksjon enn på konteksten til bildene.
VOC Challenge er en viktig konkurranse innen datamaskinsyn, som fremmer utviklingen av objektdeteksjons- og bildegjenkjenningsteknologi.

Eiendommelighet:

VOC-datasett kjennetegnes ved at de gir svært presis annotasjon, spesielt i objektdeteksjonsoppgaver. Objektene i hvert bilde er nøyaktig merket med en rektangulær boks, og hvert objekt har en kategorietikett. Denne presise annotasjonen gjør VOC-datasett ideelle for trening og testing av objektdeteksjonsalgoritmer, da de kan lære å nøyaktig identifisere og lokalisere objekter i bilder.
Selv om COCO-datasettet også gir detaljerte merknader, fokuserer det på bredere bildegjenkjenning og forståelse av scener. Annotasjoner i COCO inkluderer objektdeteksjon, segmentering og undertekstgenerering. Dette betyr at COCOs data ikke bare inkluderer den rektangulære boksen til objektet, men også mer kompleks sceneinformasjon og relasjoner mellom objektene. Derfor egner COCO-datasettet seg bedre til å trene og teste mer avanserte oppgaver innen datamaskinsyn, som sceneforståelse, bildetekstgenerering osv.

Sammendrag: VOC kan identifiseres og lokaliseres raskere og mer nøyaktig, hovedsakelig fordi annotasjonsmetoden er svært egnet for objektdeteksjonsoppgaver, mens COCO gir rikere sceneinformasjon og egner seg for mer komplekse visuelle oppgaver. Begge har sine egne fokusområder og er svært viktige datasett innen forskning på datamaskinsyn.

Spørsmål 3: Hva er formatene deres?

Merkingsformatet for VOC-datasett er XML. Hvert bilde tilsvarer en XML-fil.
Merkeformatet for COCO-datasettet er JSON eller txt. Alle målboks-annotasjoner er i samme JSON eller txt.

Original:Innloggingen med hyperkoblingen er synlig.

Lille skurk · Publisert på 01.11.2024 11:39:47

Coco-datasettet er en JSON-fil som inneholder totalt 5 deler.

{
"info": info, # grunnleggende informasjon om datasettet
"lisenser": [lisens], # lisens
"bilder": [bilde], # bildeinformasjon, navn og høyde
"Annotasjoner": [Annotasjon], # Annotasjon
"Kategorier": [Kategori] # Tag-informasjon
}
info{ # Datasett informasjonsbeskrivelse
"år": int, # datasettår
"versjon": STR, # Datasettversjon
"Beskrivelse": STR, # Datasettbeskrivelse
"Bidragsyter": STR, # Datasettleverandør
"URL": STR, # nedlastingslenke for datasett
"date_created": dato og tid, # dato for opprettelse av datasett
}
lisens{
"id": int,
"Navn": STR,
"URL": STR,
}
bilde{ # bilder er en liste som lagrer all bilde (dict) informasjon. Image er et dikt som lagrer informasjon om ett enkelt bilde
"id": int, # ID-nummer for bildet (unikt for hver bilde-ID)
"bredde": int, # bildebredde
"høyde": int, # bildehøyde
"file_name": STR, # bildenavn
"lisens": int, # avtale
"flickr_url": STR, # Flickr-lenkeadresse
"coco_url": STR, # nettverkstilkoblingsadresse
"date_captured": dato og tid, # datasett hentedato
}
Annotasjon{ # Annotasjoner er en liste som lagrer all dict-informasjon. En annotasjon er et dikt som lagrer informasjon om ett enkelt målannotasjon.
"id": int, # Målobjekt-ID (unikt for hver objekt-ID), hvert bilde kan ha flere mål
"image_id": int, # tilsvarer bilde-ID
"category_id": int, # tilsvarer kategori-ID-en, tilsvarende ID-en i kategoriene
"segmentering": RLE eller [polygon], # instanssegmentering, grensepunktkoordinatene til objektet [x1,y1,x2,y2,....,xn,yn]
"område": flyt, # Arealet til objektets område
"bbox": [xmin,ymin,bredde,høyde], # objektdeteksjon, objektposisjoneringsgrense[x,y,w,h]
"iscrowd": 0 eller 1, # indikerer om det er en folkemengde eller ikke
}
kategorier{ # Kategoribeskrivelse
"id": int, # ID-en som tilsvarer kategorien (0 går som standard til bakgrunnen)
"Navn": STR, # Underkategorinavn
"Superkategori": STR, # Hovedkategorinavn
}

Referanse:

Innloggingen med hyperkoblingen er synlig.
Innloggingen med hyperkoblingen er synlig.
Innloggingen med hyperkoblingen er synlig.
Innloggingen med hyperkoblingen er synlig.

Lille skurk · Publisert på 11.11.2024 09:16:46

Data COCO-settformat:Innloggingen med hyperkoblingen er synlig.

Lille skurk · Publisert på 11.11.2024 11:43:50

.NET/C# beregner arealet av en polygon
https://www.itsvse.com/thread-10870-1-1.html

To ofte brukte datasett for objektdeteksjon, COCO og VOC

Relaterte innlegg

Seksjoner sett