Ten artykuł jest lustrzanym artykułem tłumaczenia maszynowego, kliknij tutaj, aby przejść do oryginalnego artykułu.

Widok: 1664|Odpowiedź: 3

Dwa powszechnie używane zestawy danych do wykrywania obiektów: COCO i VOC

[Skopiuj link]
Opublikowano 30.10.2024 22:35:37 | | |
Problemy do rozwiązania:

Czym jest zbiór danych?
Czym są COCO i VOC?
Jaki to format?

P1: Czym jest zbiór danych?

Zbiór danych, dosłownie, to zbiór danych.
Zbiory danych zazwyczaj zawierają przykładowe dane używane do trenowania i walidacji modelu, które mogą mieć formę liczb, tekstu, obrazów, dźwięku lub wideo.
Zbiory danych służą do trenowania modeli algorytmicznych, umożliwiając modelowi uczenie się wzorców i wzorców w danych.
Zbiory danych zwykle dzieli się na:Zbiór treningowy, zbiór walidacyjny i zbiór testowyTrzy podzbiory.
Zbiór treningowy służy do trenowania modelu uczenia maszynowego, zbiór walidacyjny służy do wyboru i dostosowania hiperparametrów oraz struktury modelu, a zestaw testowy służy do oceny wydajności i dokładności modelu.
Zbiory treningowe, zbiory walidacyjne i zestawy testowe są powszechnie rozumiane:
Zestaw treningowy: Podobnie jak lekcja dla uczniów, wykorzystujemy te dane, aby nauczyć modele uczenia maszynowego, jak rozpoznawać i przetwarzać informacje.
Zestawy walidacyjne: To jak dawanie uczniom quizu, by sprawdzić, jak dobrze model się uczy i zobaczyć, co trzeba dostosować.
Zestaw testów: To jak dawanie uczniom egzaminu końcowego, wykorzystując te dane do ostatecznej oceny wydajności modelu i sprawdzenia, czy dobrze się uczy.

P2: Czym są COCO i VOC?

COCO (Common Objects in Context) oraz VOC (Visual Object Classes) to dwa dobrze znane zbiory danych w dziedzinie widzenia komputerowego, szeroko stosowane w rozpoznawaniu obrazów i zadaniach wykrywania obiektów.


Tworzyć:


Zbiór danych COCO został stworzony przez Microsoft Research.
Zbiór danych VOC został stworzony przez grupę zajmującą się widzeniem komputerowym na Uniwersytecie Oksfordzkim w Wielkiej Brytanii.


Przedstawić:


COCO to wielkoskalowy zbiór danych do rozpoznawania obrazów, segmentacji i generowania podpisów.
Zawiera ponad 91 000 obrazów, z których każdy ma szczegółowe oznaczenia i segmentację.
Zbiór danych COCO kładzie nacisk na kontekst obiektów w scenach naturalnych, tzn. obiekty często pojawiają się razem z innymi obiektami i mają złożone sceny oraz tła.
Zbiory danych COCO są powszechnie wykorzystywane do oceny wydajności zadań takich jak wykrywanie obiektów, segmentacja obrazów oraz generowanie podpisów pod obrazy.
VOC to starszy zbiór danych do rozpoznawania obrazów i wykrywania obiektów.
Zawiera 20 000 obrazów w około 20 kategoriach, z których każda ma precyzyjne oznaczenia obszarów i etykiety kategorii.
Zbiory danych VOC koncentrują się bardziej na identyfikacji kategorii i wykrywaniu obiektów niż na kontekście obrazów.
VOC Challenge to ważny konkurs w dziedzinie widzenia komputerowego, który promuje rozwój technologii wykrywania obiektów i rozpoznawania obrazów.

Osobliwością:

Zbiory danych VOC charakteryzują się bardzo precyzyjnym adnotacje, zwłaszcza w zadaniach wykrywania obiektów. Obiekty na każdym obrazie są precyzyjnie oznaczone prostokątnym ramkiem, a każdy obiekt ma etykietę kategorii. To precyzyjne adnotacje sprawiają, że zbiory danych VOC są idealne do trenowania i testowania algorytmów wykrywania obiektów, ponieważ mogą one nauczyć się precyzyjnie identyfikować i lokalizować obiekty na obrazach.
Chociaż zbiór danych COCO również zawiera szczegółowe adnotacje, koncentruje się na szerszym rozpoznawaniu obrazów i rozumieniu scen. Adnotacje w COCO obejmują wykrywanie obiektów, segmentację oraz generowanie napisów. Oznacza to, że dane COCO obejmują nie tylko prostokątne pudełko obiektu, ale także bardziej złożone informacje o scenie i relacjach między obiektami. Dlatego zbiór danych COCO jest bardziej odpowiedni do trenowania i testowania bardziej zaawansowanych zadań widzenia komputerowego, takich jak rozumienie scen, generowanie podpisów pod obrazami itp.

Podsumowanie: VOC można zidentyfikować i zlokalizować szybciej oraz dokładniej, głównie dlatego, że metoda adnotacji jest bardzo odpowiednia do zadań wykrywania obiektów, podczas gdy COCO zapewnia bogatsze informacje o scenie i nadaje się do bardziej złożonych zadań wizualnych. Oba mają swoje własne obszary i są bardzo ważnymi zbiorami danych w badaniach nad widzeniem komputerowym.

P3: Jakie mają formaty?

  • Format etykietowania zbiorów danych VOC to XML. Każdy obraz odpowiada plikowi XML.
  • Format etykietowania zbioru danych COCO to JSON lub txt. Wszystkie adnotacje do pola docelowego są w tym samym JSON lub txt.


Oryginał:Logowanie do linku jest widoczne.




Poprzedni:Windows instaluj narzędzie do zarządzania środowiskiem Conda
Następny:MikroTik (2) zabrania urządzeniu dostępu do sieci zewnętrznej, a jedynie do sieci wewnętrznej
 Ziemianin| Opublikowano 01.11.2024 11:39:47 |
Zbiór danych Coco to plik JSON, który zawiera łącznie 5 części.

{
    "info": info, # podstawowe informacje o zbiorze danych
    "licencje": [licencja], # licencja
    "Images": [Image], # Informacje o obrazie, nazwie i wysokości
    "adnotacje": [adnotacja], # adnotacja
    "kategorie": [kategoria] # informacje o tagu
}
info{ # Opis informacji zbioru danych
    "rok": int, # rok zbioru danych
    "Version": str, # Dataset Version
    "Opis": str, # Opis zbioru danych
    "Contributor": str, # Dataset Provider
    "URL": str, # link do pobrania zestawu danych
    "date_created": datatime, # data utworzenia zbioru danych
}
license{
    "id": int,
    "Imię": str,
    "URL": str,
}
image{ # images to lista, która przechowuje wszystkie informacje o obrazie (dykcie). Obraz to dykt, który przechowuje informacje o pojedynczym obrazie
    "id": int, # numer ID obrazu (unikalny dla każdego ID)
    "szerokość": int, # szerokość obrazu
    "wysokość": int, # wysokość obrazu
    "file_name": str, # nazwa obrazu
    "licencja": int, # umowa
    "flickr_url": str, # link do flickr
    "coco_url": str, # adres połączenia sieciowego
    "date_captured": datetime, # dataset data pobierania
}
Annotation{ # Annotations to lista przechowująca wszystkie informacje o dyktach. Adnotacja to dykt, który przechowuje pojedynczą informację o anotacji docelowej.
    "id": int, # Identyfikator obiektu docelowego (unikalny dla każdego ID), każdy obraz może mieć wiele celów
    "image_id": int, # odpowiada identyfikatorowi obrazu
    "category_id": int, # odpowiada identyfikatorowi kategorii odpowiadającemu ID w kategoriach
    "segmentacja": RLE lub [wielokąt], # segmentacja instancji, współrzędne brzegu obiektu [x1,y1,x2,y2,....,xn,yn]
    "area": float, # Obszar obszaru obiektu
    "bbox": [xmin,ymin,szerokość,wysokość], # wykrywanie obiektów, granica pozycjonowania obiektów[x,y,w,h]
    "iscrowd": 0 lub 1, # wskazuje, czy jest to tłum, czy nie
}
categories{ # Opis kategorii
    "id": int, # ID odpowiadający kategorii (0 domyślnie tło)
    "Name": str, # Nazwa podkategorii
    "Superkategoria": str, # Główna nazwa kategorii
}



Odniesienie:

Logowanie do linku jest widoczne.
Logowanie do linku jest widoczne.
Logowanie do linku jest widoczne.
Logowanie do linku jest widoczne.

 Ziemianin| Opublikowano 11.11.2024 09:16:46 |
Format zestawu danych COCO:Logowanie do linku jest widoczne.


 Ziemianin| Opublikowano 11.11.2024 11:43:50 |
.NET/C# oblicza pole wielokąta
https://www.itsvse.com/thread-10870-1-1.html
Zrzeczenie się:
Całe oprogramowanie, materiały programistyczne lub artykuły publikowane przez Code Farmer Network służą wyłącznie celom edukacyjnym i badawczym; Powyższe treści nie mogą być wykorzystywane do celów komercyjnych ani nielegalnych, w przeciwnym razie użytkownicy ponoszą wszelkie konsekwencje. Informacje na tej stronie pochodzą z Internetu, a spory dotyczące praw autorskich nie mają z nią nic wspólnego. Musisz całkowicie usunąć powyższą zawartość z komputera w ciągu 24 godzin od pobrania. Jeśli spodoba Ci się program, wspieraj oryginalne oprogramowanie, kup rejestrację i korzystaj z lepszych, autentycznych usług. W przypadku naruszenia praw prosimy o kontakt mailowy.

Mail To:help@itsvse.com