Ez a cikk egy tükör gépi fordítás, kérjük, kattintson ide, hogy ugorjon az eredeti cikkre.

Nézet: 1664|Válasz: 3

Két leggyakrabban használt adatkészlet objektumfelismeréshez: a COCO és a VOC

[Linket másol]
Közzétéve 2024. 10. 30. 22:35:37 | | |
Megoldandó problémák:

Mi az az adathalmaz?
Mik azok a COCO és VOC-k?
Milyen formátumúak?

K1: Mi az az adathalmaz?

Az adathalmaz, szó szerint, egy adatgyűjtemény.
Az adathalmazok általában mintaadatokat tartalmaznak, amelyeket a modell képzésére és validálására használnak, amelyek számok, szöveg, képek, hang vagy videó formájában is létezhetnek.
Az adathalmazokat algoritmikus modellek tanítására használják, lehetővé téve a modell számára, hogy mintákat és mintákat tanuljon az adatokban.
Az adathalmazokat általában a következőkre osztják:Képzési készlet, validációs készlet és tesztkészletHárom alhalmaz.
A betanítási készletet a gépi tanulási modell képzésére használják, az validációs készlet a modell hiperparamétereinek és szerkezetének kiválasztására és módosítására, a tesztkészlet pedig a modell teljesítményének és pontosságának értékelésére szolgál.
A képzési halmazokat, validációs halmazokat és teszthalmazokat általánosan értik:
Képzési készlet: Akárcsak egy tanuló, ezt az adatot arra használjuk, hogy megtanítsuk a gépi tanulási modelleket az információk felismerésére és feldolgozására.
Validációs készletek: Olyan, mintha a diákoknak egy kvízet adnál, hogy megnézzék, mennyire jól tanul a modell, és mit kell módosítani.
Tesztkészlet: Olyan, mintha a hallgatók záróvizsgát adnának, és ezeket az adatokat felhasználva végül értékeljük a modell teljesítményét, hogy lássuk, jól tanul-e.

K2: Mik azok a COCO és a VOC?

A COCO (Common Objects in Context) és a VOC (Visual Object Classes) két jól ismert adathalmaz, amelyeket széles körben használnak képfelismerés és objektumfelismerés feladatokban.


Alkot:


A COCO adathalmazt a Microsoft Research hozta létre.
A VOC adathalmazt az Egyesült Királyságban az Oxfordi Egyetem számítógépes látás csoportja hozta létre.


Bevezet:


A COCO egy nagyszabású adathalmaz, amely képfelismeréshez, szegmentáláshoz és feliratgeneráláshoz szolgál.
Több mint 91 000 képet tartalmaz, mindegyik részletes címkézéssel és szegmentálással.
A COCO adathalmaza a természetes jelenetekben szereplő objektumok kontextusát hangsúlyozza, azaz az objektumok gyakran más objektumokkal együtt jelennek meg, összetett jelenetekkel és hátterekkel.
A COCO adathalmazokat gyakran használják olyan feladatok teljesítményének értékelésére, mint az objektumfelismerés, képszegmentálás és képaláírás generálása.
A VOC egy régebbi képfelismerő és objektumfelismerő adathalmaz.
20 000 képet tartalmaz mintegy 20 kategóriában, mindegyik pontos területjelöléssel és kategóriacímkével.
A VOC adathalmazok inkább a kategóriaazonosításra és objektumfelismerésre fókuszálnak, mint a képek kontextusára.
A VOC Challenge fontos verseny a számítógépes látás területén, amely elősegíti az objektumfelismerés és képfelismerő technológia fejlesztését.

Jellemző vonás:

A VOC adathalmazokat nagyon pontos annotációval jellemzik, különösen objektumfelismerési feladatok során. Minden képen szereplő objektumokat pontosan téglalap alakú dobozzal jelölik, és minden objektumnak van kategóriacímkéje. Ez a pontos annotáció ideálissá teszi a VOC adathalmazokat objektumfelismerő algoritmusok képzésére és tesztelésére, mivel megtanulhatják, hogyan lehet pontosan azonosítani és helyezni az objektumokat a képeken.
Bár a COCO adatkészlet részletes jegyzeteket is tartalmaz, a szélesebb képfelismerésre és a jelenetek megértésére fókuszál. A COCO-ban az annotációk közé tartozik az objektumfelismerés, szegmentálás és feliratgenerálás. Ez azt jelenti, hogy a COCO adatai nemcsak az objektum téglalap alakú dobozát tartalmazzák, hanem összetettebb jelenetinformációkat és tárgyak közötti kapcsolatokat is. Ezért a COCO adathalmaz alkalmasabb fejlettebb számítógépes látási feladatok képzésére és tesztelésére, mint például a jelenetmegértés, képaláírás generálása stb.

Összefoglaló: A VOC gyorsabban és pontosabban azonosítható és helyreállítható, főként azért, mert annotációs módszere nagyon alkalmas objektumészlelési feladatokra, míg a COCO gazdagabb jelenetinformációkat nyújt, és összetettebb vizuális feladatokra is alkalmas. Mindkettőnek megvan a maga fókusza, és nagyon fontos adathalmazok a számítógépes látás kutatásában.

K3: Mik a formátumaik?

  • A VOC adathalmazok címkézési formátuma XML. Minden kép egy XML fájlnak felel meg.
  • A COCO adathalmaz címkézési formátuma JSON vagy txt. Minden céldoboz annotáció ugyanabban a JSON-ban vagy txt-ben van.


Eredeti:A hiperlink bejelentkezés látható.




Előző:Windows telepítse a Conda környezetkezelő eszközt
Következő:A MikroTik (2) megtiltja, hogy egy eszköz hozzáférjen a külső hálózathoz, csak a belső hálózathoz való hozzáférést
 Háziúr| Közzétéve 2024. 11. 01. 11:39:47 |
A Coco adatbázis egy JSON fájl, amely összesen 5 részt tartalmaz.

{
    "info": info, # alapvető információk az adathalmazról
    "licencek": [licenc], # licence
    "képek": [kép], # képinformáció, név és magasság
    "megjegyzések": [megjegyzés], # megjegyzés
    "kategóriák": [kategória] # címke információ
}
info{ # Adathalmaz-információ leírása
    "év": int, # adathalmaz év
    "verzió": STR, # adathalmaz verzió
    "leírás": STR, # adathalmaz leírása
    "közreműködő": str, # adathalmazszolgáltató
    "URL": str, # adathalmaz-letöltési link
    "date_created": datetime, # adathalmaz létrehozásának dátuma
}
license{
    "azonosító": int,
    "név": Str,
    "URL": STR,
}
image{ # images egy lista, amely tárolja az összes kép (dict) információt. A kép egy dikt, amely egyetlen képről tárol információkat
    "id": int, # a kép azonosító száma (minden képazonosító számára egyedi)
    "width": int, # kép szélessége
    "magasság": int, # képmagasság
    "file_name": erő, # képnév
    "licenc": int, # megállapodás
    "flickr_url": str, # flickr link cím
    "coco_url": STR, # hálózati kapcsolati cím
    "date_captured": datetime, # adathalmaz-fetch date
}
Annotation{ # annotations egy lista, amely minden dict információt tárol. Az annotáció egy diktát, amely egyetlen célpont annotációs információt tárol.
    "id": int, # Célobjektum azonosító (minden objektumazonosító számára egyedi), minden képnek több célpontja is lehet
    "image_id": int, # megfelel a képazonosítónak
    "category_id": int, # megfelel a kategóriák ID-jének, amely a kategóriák ID-jének felel meg
    "szegmentáció": RLE vagy [sokszög], # instance szegmentáció, az objektum határpontkoordinátái [x1,y1,x2,y2,....,xn,yn]
    "terület": lebegő, # Az objektum területének területe
    "bbox": [xmin,ymin,width,height], # objektum detektálás, objektum pozícionálási szegély[x,y,w,h]
    "iscrowd": 0 vagy 1, # jelzi, hogy a közönség vagy sem
}
categories{ # Kategória leírása
    "id": int, # Az adott kategóriához tartozó azonosító (0 alapértelmezetten a háttérben jelenik meg)
    "name": str, # alkategória név
    "szuperkategória": erő, # fő kategória név
}



Utalás:

A hiperlink bejelentkezés látható.
A hiperlink bejelentkezés látható.
A hiperlink bejelentkezés látható.
A hiperlink bejelentkezés látható.

 Háziúr| Közzétéve 2024. 11. 11. 9:16:46 |
Data COCO Set Formátum:A hiperlink bejelentkezés látható.


 Háziúr| Közzétéve 2024. 11. 11. 11:43:50 |
.NET/C# számolja ki a sokszög területét
https://www.itsvse.com/thread-10870-1-1.html
Lemondás:
A Code Farmer Network által közzétett összes szoftver, programozási anyag vagy cikk kizárólag tanulási és kutatási célokra szolgál; A fenti tartalmat nem szabad kereskedelmi vagy illegális célokra használni, különben a felhasználók viselik az összes következményet. Az oldalon található információk az internetről származnak, és a szerzői jogi vitáknak semmi köze ehhez az oldalhoz. A fenti tartalmat a letöltés után 24 órán belül teljesen törölni kell a számítógépéről. Ha tetszik a program, kérjük, támogassa a valódi szoftvert, vásároljon regisztrációt, és szerezzen jobb hiteles szolgáltatásokat. Ha bármilyen jogsértés történik, kérjük, vegye fel velünk a kapcsolatot e-mailben.

Mail To:help@itsvse.com