Podstawowe zasady głębokiego uczenia DBNet

Mały śmiecie · Opublikowano 19.01.2025 12:26:21

Oryginalny link:Logowanie do linku jest widoczne.
Oryginalny link do kodu:Logowanie do linku jest widoczne.
Rozmnażanie jest lepsze:Logowanie do linku jest widoczne.

Obecnie wykrywanie tekstu można w przybliżeniu podzielić na dwie kategorie: metody oparte na regresji oraz metody oparte na segmentacji. Ogólny proces metodyczny oparty na segmentacji jest przedstawiony na niebieskiej strzałce na poniższym rysunku: najpierw wynik segmentacji tekstu obrazu jest wysyłany przez sieć (wykres prawdopodobieństwa, czy każdy piksel jest próbką dodatnią), wstępnie ustalony próg służy do konwersji wykresu wyników segmentacji na wykres binarny, a na końcu stosuje się operacje agregacji, takie jak łączenie domen, do konwersji wyników na poziomie pikseli w wyniki detekcji.

Z powyższego opisu wynika, że ponieważ istnieje operacja wykorzystująca progi do określenia pierwszego i drugiego planu, operacja ta jest nieodróżnialna, więc nie jest możliwe wykorzystanie sieci do umieszczenia tej części procesu w sieci do treningu. Proces ten jest pokazany czerwoną strzałką na powyższym obrazku.

1. Struktura sieci

Struktura sieci w tym artykule przedstawiona jest na następującym rysunku: podczas procesu treningowego, po wprowadzeniu obrazu do sieci, niebieska mapa cech na powyższym rysunku nazywana jest F po ekstrakcji cech i operacji zwiększania i konkatu, następnie mapa prawdopodobieństwa (mapa prawdopodobieństwa) jest przewidywana przez F zwana P, a mapa progowa (mapa progowa) przewidywana przez F nazywana jest T, a na końcu przybliżona mapa binarna B ^ jest obliczana przez P i T. Pole tekstowe procesu wnioskowania można uzyskać za pomocą przybliżonego grafu binarnego lub wykresu prawdopodobieństwa.

2. Binarność

2.1 Binaryzacja standardów

2.2 Różniczkowalna binaryzacja

Powyższa metoda binaryzacji nie jest różniczkowalna, więc nie może być zoptymalizowana w uczeniu sieciowym. Aby rozwiązać ten problem, artykuł proponuje przybliżoną funkcję krokową:

Wynik powyższego równania B ^ reprezentuje przybliżony graf binarny, T to graf progowy uczenia się sieci, a k to czynnik, a ten artykuł ustawiony jest na 50. Diagram tej funkcji jest bardzo podobny do funkcji krokowej powyżej, jak pokazano na rysunku A poniżej.

3. Próg adaptacyjny

Powyższe opisuje, jak przeprowadzić binarny P do przybliżonego grafu binarnego B ^ po uzyskaniu grafu prawdopodobieństwa P i grafu progowego T. Ta sekcja wyjaśnia, jak uzyskać etykiety prawdopodobieństwa P, progu T oraz grafu binarnego B^.

3.1 Splot deformacyjny

Ponieważ mogą wymagać duże pola recepcyjne, artykuł stosuje splot deformacyjny do sieci ResNet-18 lub ResNet-50.

Funkcja straty

Wzór na funkcję strat używany w tekście jest następujący:

wnioskować

Oryginał:Logowanie do linku jest widoczne.

Podstawowe zasady głębokiego uczenia DBNet

Powiązane wpisy

Oglądane sekcje