딥러닝 DBNet의 기본 원리

작은 쓰레기 같은 놈들 · 게시됨 2025. 1. 19. 오후 12:26:21

원본 링크:하이퍼링크 로그인이 보입니다.
원본 코드 링크:하이퍼링크 로그인이 보입니다.
번식이 더 좋습니다:하이퍼링크 로그인이 보입니다.

현재 텍스트 탐지는 대략 회귀 기반 방법과 분할 기반 방법의 두 가지 범주로 나눌 수 있습니다. 세분화 기반의 일반적인 방법 과정은 아래 그림의 파란색 화살표에 나와 있습니다: 먼저, 이미지의 텍스트 분할 결과(확률 그래프, 각 픽셀이 양의 샘플인지 여부)를 네트워크를 통해 출력하고, 미리 설정된 임계값을 사용해 분할 결과 그래프를 이진 플롯으로 변환하며, 마지막으로 도메인 연결 같은 집계 연산을 사용해 픽셀 수준 결과를 검출 결과로 변환합니다.

위 설명을 통해 전경과 배경을 결정하는 임계값을 사용하는 연산이 존재하기 때문에 이 연산은 구분이 불가능하며, 따라서 이 과정을 학습용으로 네트워크에 넣는 것은 네트워크에서 불가능합니다. 이 과정은 위 이미지의 빨간 화살표로 보여집니다.

1. 네트워크 구조

이 논문의 네트워크 구조는 다음 그림에서 나타난다. 학습 과정 중 그림이 네트워크에 입력된 후, 위 그림의 파란색 특징 맵은 특징 추출과 업샘플링 융합, 콘캣 연산 후 F라고 불리고, 확률 사상(확률 사상)은 F에 의해 예측되며, 임계값 사상(임계값 사상)은 T라고 하며, 마지막으로 근사적인 이진 사상 B ^는 P와 T를 통해 계산된다. 추론 과정 텍스트 박스는 근사적인 이진 그래프 또는 확률 그래프를 통해 얻을 수 있습니다.

2. 이진

2.1 표준의 이분화

2.2 미분 가능한 이분화

위의 이분화 방법은 미분 불가능하므로 네트워크 학습에서 최적화할 수 없습니다. 이 문제를 해결하기 위해 본 논문은 근사 단계 함수를 제안합니다:

위 방정식 B ^의 출력은 근사 이진 그래프를 나타내며, T는 네트워크 학습의 임계 그래프, k는 인자이며, 이 논문은 50으로 설정되어 있습니다. 이 함수의 다이어그램은 아래 그림의 그림 A에서 보듯이 위의 단계 함수와 매우 유사합니다.

3. 적응 임계값

위에서는 확률 그래프 P와 임계값 그래프 T를 얻은 후 근사 이진 그래프 B ^로 P를 이진 화하는 방법을 설명합니다. 이 섹션에서는 확률 P, 임계값 T, 이진 그래프 B^의 라벨을 얻는 방법을 설명합니다.

3.1 변형 합성곱

큰 수용 필드가 필요할 수 있기 때문에, 이 글은 ResNet-18 또는 ResNet-50 네트워크에 변형 컨볼루션을 적용합니다.

손실 함수

본문에서 사용된 손실 함수의 공식은 다음과 같습니다:

연역하다

원문 언어:하이퍼링크 로그인이 보입니다.

딥러닝 DBNet의 기본 원리

관련 게시물

본 섹션