Ten artykuł jest lustrzanym artykułem tłumaczenia maszynowego, kliknij tutaj, aby przejść do oryginalnego artykułu.

Widok: 1800|Odpowiedź: 0

Podstawowe zasady głębokiego uczenia DBNet

[Skopiuj link]
Opublikowano 2025-1-19 12:26:21 | | | |
Oryginalny link:Logowanie do linku jest widoczne.
Oryginalny link do kodu:Logowanie do linku jest widoczne.
Rozmnażanie jest lepsze:Logowanie do linku jest widoczne.

Obecnie wykrywanie tekstu można w przybliżeniu podzielić na dwie kategorie: metody oparte na regresji oraz metody oparte na segmentacji. Ogólny proces metodyczny oparty na segmentacji jest przedstawiony na niebieskiej strzałce na poniższym rysunku: najpierw wynik segmentacji tekstu obrazu jest wysyłany przez sieć (wykres prawdopodobieństwa, czy każdy piksel jest próbką dodatnią), wstępnie ustalony próg służy do konwersji wykresu wyników segmentacji na wykres binarny, a na końcu stosuje się operacje agregacji, takie jak łączenie domen, do konwersji wyników na poziomie pikseli w wyniki detekcji.



Z powyższego opisu wynika, że ponieważ istnieje operacja wykorzystująca progi do określenia pierwszego i drugiego planu, operacja ta jest nieodróżnialna, więc nie jest możliwe wykorzystanie sieci do umieszczenia tej części procesu w sieci do treningu. Proces ten jest pokazany czerwoną strzałką na powyższym obrazku.

1. Struktura sieci

Struktura sieci w tym artykule przedstawiona jest na następującym rysunku: podczas procesu treningowego, po wprowadzeniu obrazu do sieci, niebieska mapa cech na powyższym rysunku nazywana jest F po ekstrakcji cech i operacji zwiększania i konkatu, następnie mapa prawdopodobieństwa (mapa prawdopodobieństwa) jest przewidywana przez F zwana P, a mapa progowa (mapa progowa) przewidywana przez F nazywana jest T, a na końcu przybliżona mapa binarna B ^ jest obliczana przez P i T. Pole tekstowe procesu wnioskowania można uzyskać za pomocą przybliżonego grafu binarnego lub wykresu prawdopodobieństwa.



2. Binarność


2.1 Binaryzacja standardów



2.2 Różniczkowalna binaryzacja


Powyższa metoda binaryzacji nie jest różniczkowalna, więc nie może być zoptymalizowana w uczeniu sieciowym. Aby rozwiązać ten problem, artykuł proponuje przybliżoną funkcję krokową:



Wynik powyższego równania B ^ reprezentuje przybliżony graf binarny, T to graf progowy uczenia się sieci, a k to czynnik, a ten artykuł ustawiony jest na 50. Diagram tej funkcji jest bardzo podobny do funkcji krokowej powyżej, jak pokazano na rysunku A poniżej.



3. Próg adaptacyjny

Powyższe opisuje, jak przeprowadzić binarny P do przybliżonego grafu binarnego B ^ po uzyskaniu grafu prawdopodobieństwa P i grafu progowego T. Ta sekcja wyjaśnia, jak uzyskać etykiety prawdopodobieństwa P, progu T oraz grafu binarnego B^.

3.1 Splot deformacyjny

Ponieważ mogą wymagać duże pola recepcyjne, artykuł stosuje splot deformacyjny do sieci ResNet-18 lub ResNet-50.



Funkcja straty

Wzór na funkcję strat używany w tekście jest następujący:



wnioskować




Oryginał:Logowanie do linku jest widoczne.




Poprzedni:Seria Angular 18 (trzydzieści) tworzy przestrzeń roboczą
Następny:Przekonwertowanie modelu łopatki do formatu modelu ONNX
Zrzeczenie się:
Całe oprogramowanie, materiały programistyczne lub artykuły publikowane przez Code Farmer Network służą wyłącznie celom edukacyjnym i badawczym; Powyższe treści nie mogą być wykorzystywane do celów komercyjnych ani nielegalnych, w przeciwnym razie użytkownicy ponoszą wszelkie konsekwencje. Informacje na tej stronie pochodzą z Internetu, a spory dotyczące praw autorskich nie mają z nią nic wspólnego. Musisz całkowicie usunąć powyższą zawartość z komputera w ciągu 24 godzin od pobrania. Jeśli spodoba Ci się program, wspieraj oryginalne oprogramowanie, kup rejestrację i korzystaj z lepszych, autentycznych usług. W przypadku naruszenia praw prosimy o kontakt mailowy.

Mail To:help@itsvse.com