이 글은 기계 번역의 미러 문서이며, 원본 기사로 바로 이동하려면 여기를 클릭해 주세요.

보기: 1800|회답: 0

딥러닝 DBNet의 기본 원리

[링크 복사]
2025-1-19 12:26:21에 게시됨 | | | |
원본 링크:하이퍼링크 로그인이 보입니다.
원본 코드 링크:하이퍼링크 로그인이 보입니다.
번식이 더 좋습니다:하이퍼링크 로그인이 보입니다.

현재 텍스트 탐지는 대략 회귀 기반 방법과 분할 기반 방법의 두 가지 범주로 나눌 수 있습니다. 세분화 기반의 일반적인 방법 과정은 아래 그림의 파란색 화살표에 나와 있습니다: 먼저, 이미지의 텍스트 분할 결과(확률 그래프, 각 픽셀이 양의 샘플인지 여부)를 네트워크를 통해 출력하고, 미리 설정된 임계값을 사용해 분할 결과 그래프를 이진 플롯으로 변환하며, 마지막으로 도메인 연결 같은 집계 연산을 사용해 픽셀 수준 결과를 검출 결과로 변환합니다.



위 설명을 통해 전경과 배경을 결정하는 임계값을 사용하는 연산이 존재하기 때문에 이 연산은 구분이 불가능하며, 따라서 이 과정을 학습용으로 네트워크에 넣는 것은 네트워크에서 불가능합니다. 이 과정은 위 이미지의 빨간 화살표로 보여집니다.

1. 네트워크 구조

이 논문의 네트워크 구조는 다음 그림에서 나타난다. 학습 과정 중 그림이 네트워크에 입력된 후, 위 그림의 파란색 특징 맵은 특징 추출과 업샘플링 융합, 콘캣 연산 후 F라고 불리고, 확률 사상(확률 사상)은 F에 의해 예측되며, 임계값 사상(임계값 사상)은 T라고 하며, 마지막으로 근사적인 이진 사상 B ^는 P와 T를 통해 계산된다. 추론 과정 텍스트 박스는 근사적인 이진 그래프 또는 확률 그래프를 통해 얻을 수 있습니다.



2. 이진


2.1 표준의 이분화



2.2 미분 가능한 이분화


위의 이분화 방법은 미분 불가능하므로 네트워크 학습에서 최적화할 수 없습니다. 이 문제를 해결하기 위해 본 논문은 근사 단계 함수를 제안합니다:



위 방정식 B ^의 출력은 근사 이진 그래프를 나타내며, T는 네트워크 학습의 임계 그래프, k는 인자이며, 이 논문은 50으로 설정되어 있습니다. 이 함수의 다이어그램은 아래 그림의 그림 A에서 보듯이 위의 단계 함수와 매우 유사합니다.



3. 적응 임계값

위에서는 확률 그래프 P와 임계값 그래프 T를 얻은 후 근사 이진 그래프 B ^로 P를 이진 화하는 방법을 설명합니다. 이 섹션에서는 확률 P, 임계값 T, 이진 그래프 B^의 라벨을 얻는 방법을 설명합니다.

3.1 변형 합성곱

큰 수용 필드가 필요할 수 있기 때문에, 이 글은 ResNet-18 또는 ResNet-50 네트워크에 변형 컨볼루션을 적용합니다.



손실 함수

본문에서 사용된 손실 함수의 공식은 다음과 같습니다:



연역하다




원문 언어:하이퍼링크 로그인이 보입니다.




이전의:Angular 18 시리즈(30)는 작업 공간을 만듭니다
다음:패들 모델을 ONNX 모델 형식으로 변환하세요
면책 조항:
Code Farmer Network에서 발행하는 모든 소프트웨어, 프로그래밍 자료 또는 기사는 학습 및 연구 목적으로만 사용됩니다; 위 내용은 상업적 또는 불법적인 목적으로 사용되지 않으며, 그렇지 않으면 모든 책임이 사용자에게 부담됩니다. 이 사이트의 정보는 인터넷에서 가져온 것이며, 저작권 분쟁은 이 사이트와는 관련이 없습니다. 위 내용은 다운로드 후 24시간 이내에 컴퓨터에서 완전히 삭제해야 합니다. 프로그램이 마음에 드신다면, 진짜 소프트웨어를 지원하고, 등록을 구매하며, 더 나은 진짜 서비스를 받아주세요. 침해가 있을 경우 이메일로 연락해 주시기 바랍니다.

Mail To:help@itsvse.com