Kaks sageli kasutatavat andmekogumit objektide tuvastamiseks, COCO ja VOC

Väike sodi · Postitatud 30.10.2024 22:35:37

Lahendatavad probleemid:

Mis on andmekogum?
Mis on COCO ja VOC-d?
Mis formaadiga need on?

K1: Mis on andmekogum?

Andmestik on sõna otseses mõttes andmete kogum.
Andmekogumid sisaldavad tavaliselt näidisandmeid, mida kasutatakse mudeli treenimiseks ja valideerimiseks; need võivad olla numbrid, tekst, pildid, heli või video.
Andmekogumeid kasutatakse algoritmiliste mudelite treenimiseks, võimaldades mudelil õppida mustreid ja mustreid andmetes.
Andmekogumid jagunevad tavaliselt järgmisteks:Treeningkomplekt, valideerimiskomplekt ja testkomplektKolm alamhulka.
Treeningkomplekti kasutatakse masinõppemudeli treenimiseks, valideerimiskomplekti kasutatakse mudeli hüperparameetrite ja struktuuri valimiseks ja kohandamiseks ning testikomplekti kasutatakse mudeli jõudluse ja täpsuse hindamiseks.
Treeningkomplektid, valideerimiskomplektid ja testkomplektid on tavaliselt mõistetavad:
Koolituskomplekt: Nagu õppetund õpilastele, kasutame neid andmeid, et õpetada masinõppemudelitele, kuidas infot ära tunda ja töödelda.
Valideerimiskomplektid: See on nagu anda õpilastele viktoriin, et kontrollida, kui hästi mudel õpib ja mida tuleb kohandada.
Testikomplekt: See on nagu anda tudengitele lõpueksam, kasutades neid andmeid, et lõpuks hinnata mudeli toimivust, et näha, kas see õpib hästi.

K2: Mis on COCO ja VOC?

COCO (Common Objects in Context) ja VOC (Visual Object Classes) on kaks tuntud andmestikku arvutinägemise valdkonnas, mida kasutatakse laialdaselt pildituvastuse ja objektide tuvastamise ülesannetes.

Looma:

COCO andmestiku lõi Microsoft Research.
VOC andmestiku lõi arvutinägemise grupp Oxfordi Ülikoolis Ühendkuningriigis.

Tutvustada:

COCO on suuremahuline andmestik pildituvastuse, segmenteerimise ja pealkirjade genereerimise jaoks.
See sisaldab üle 91 000 pildi, millest igaühel on detailne märgistus ja segmenteerimine.
COCO andmestik rõhutab objektide konteksti looduslikes stseenides, st objektid ilmuvad sageli koos teiste objektidega ning neil on keerukad stseenid ja taustad.
COCO andmekogumeid kasutatakse sageli selliste ülesannete nagu objektide tuvastamine, pildisegmentide genereerimine ja pildipealdiste genereerimise tulemuslikkuse hindamiseks.
VOC on vanem pildituvastuse ja objektituvastuse andmekogum.
Seal on 20 000 pilti umbes 20 kategoorias, millest igaühel on täpsed piirkonna tunnused ja kategooriasildid.
VOC andmekogumid keskenduvad rohkem kategooriate tuvastamisele ja objektide tuvastamisele kui piltide kontekstile.
VOC Challenge on oluline võistlus arvutinägemise valdkonnas, mis soodustab objektide tuvastamise ja pildituvastuse tehnoloogia arengut.

Omapära:

VOC andmekogumeid iseloomustab see, et need pakuvad väga täpset annotatsiooni, eriti objektide tuvastamise ülesannetes. Iga pildi objektid on täpselt märgistatud ristkülikukujulise kastiga ning igal objektil on kategooria silt. See täpne annotatsioon teeb VOC andmekogumitest ideaalsed objektituvastuse algoritmide treenimiseks ja testimiseks, kuna need õpivad täpselt tuvastama ja leidma objekte piltidel.
Kuigi COCO andmestik pakub samuti üksikasjalikke märkusi, keskendub see laiemale pildituvastusele ja stseeni mõistmisele. COCO annotatsioonid hõlmavad objektide tuvastamist, segmenteerimist ja subtiitrite genereerimist. See tähendab, et COCO andmed hõlmavad mitte ainult objekti ristkülikukujulist kasti, vaid ka keerukamat stseeni infot ja objektidevahelisi suhteid. Seetõttu sobib COCO andmestik paremini keerukamate arvutinägemise ülesannete treenimiseks ja testimiseks, nagu stseeni mõistmine, pildipealkirjade genereerimine jne.

Kokkuvõte: VOC-d saab tuvastada ja leida kiiremini ja täpsemalt, peamiselt seetõttu, et selle annotatsioonimeetod sobib väga hästi objektide tuvastamise ülesanneteks, samas kui COCO pakub rikkalikumat stseeni infot ja sobib keerukamate visuaalsete ülesannete jaoks. Mõlemal on oma fookused ja need on arvutinägemise uurimises väga olulised andmekogumid.

K3: Millised on nende formaadid?

VOC andmekogumite märgistusvorming on XML. Iga pilt vastab XML-failile.
COCO andmestiku märgistusformaat on JSON või txt. Kõik sihtmärgikasti annotatsioonid on samas JSON-is või txt-s.

Originaal:Hüperlingi sisselogimine on nähtav.

Väike sodi · Postitatud 01.11.2024 11:39:47

Coco andmestik on JSON-fail, mis sisaldab kokku 5 osa.

{
"info": info, # põhiinfo andmestiku kohta
"litsentsid": [litsents], # litsents
"pildid": [pilt], # pildiinfo, nimi ja kõrgus
"annotatsioonid": [annotatsioon], # annotatsioon
"kategooriad": [kategooria] # sildi info
}
info{ # Andmestiku info kirjeldus
"year": int, # andmestik aasta
"versioon": str, # andmestik versioon
"kirjeldus": STR, # andmestiku kirjeldus
"panustaja": STR, # andmestiku pakkuja
"URL": str, # andmestiku allalaadimise link
"date_created": datetime, # andmestiku loomise kuupäev
}
license{
"id": int,
"nimi": Str,
"URL": str,
}
image{ # images on nimekiri, mis salvestab kogu pildi (dict) info. Image on dikt, mis salvestab infot ühe pildi kohta
"id": int, # pildi ID number (iga pildi ID jaoks unikaalne)
"width": int, # image width
"kõrgus": int, # pildikõrgus
"file_name": str, # pildinimi
"litsents": int, # kokkulepe
"flickr_url": str, # flickri lingi aadress
"coco_url": str, # võrguühenduse aadress
"date_captured": datetime, # andmestiku toomise kuupäev
}
annotation{ # annotations on nimekiri, mis salvestab kogu dict info. Annotatsioon on dikt, mis salvestab ühe sihtmärgi annotatsiooniinfo.
"id": int, # Sihtobjekti ID (iga objekti ID jaoks unikaalne), igal pildil võib olla mitu sihtmärki
"image_id": int, # vastab pildi ID-le
"category_id": int, # vastab kategooria ID-le, mis vastab kategooriate ID-le
"segmentatsioon": RLE või [hulknurk], # eksemplarsegmentatsioon, objekti piiripunkti koordinaadid [x1,y1,x2,y2,....,xn,yn]
"ala": float, # Objekti pindala
"bbox": [xmin,ymin,width,height], # objekti tuvastamine, objekti positsioneerimise ääris[x,y,w,h]
"iscrowd": 0 või 1, # näitab, kas tegemist on rahvahulgaga või mitte
}
kategooriad{ # Kategooria kirjeldus
"id": int, # ID vastab kategooriale (0 vaikimisi taustaks)
"name": str, # alamkategooria nimi
"superkategooria": jõud, # peamise kategooria nimi
}

Viide:

Hüperlingi sisselogimine on nähtav.
Hüperlingi sisselogimine on nähtav.
Hüperlingi sisselogimine on nähtav.
Hüperlingi sisselogimine on nähtav.

Väike sodi · Postitatud 11.11.2024 09:16:46

Data COCO komplekti formaat:Hüperlingi sisselogimine on nähtav.

Väike sodi · Postitatud 11.11.2024 11:43:50

.NET/C# arvutab hulknurga pindala
https://www.itsvse.com/thread-10870-1-1.html

Kaks sageli kasutatavat andmekogumit objektide tuvastamiseks, COCO ja VOC

Seotud postitused

Vaadatud sektsioonid