Основните принципи на дълбокото обучение DBNet

Малък боклук · Публикувано в 19.01.2025 г. 12:26:21 ч.

Оригинален линк:Входът към хиперлинк е видим.
Оригинален код линк:Входът към хиперлинк е видим.
Размножаването е по-добро:Входът към хиперлинк е видим.

В момента откриването на текст може грубо да се раздели на две категории: методи, базирани на регресия, и методи, базирани на сегментация. Общият метод, базиран на сегментация, е показан в синята стрелка на фигурата по-долу: първо, резултатът от текстовата сегментация на изображението се изводи през мрежата (вероятностна графика, дали всеки пиксел е положителна извадка), предварително зададеният праг се използва за преобразуване на графиката на резултатите от сегментацията в двоичен график, а накрая се използват някои агрегационни операции като свързващи домейни за преобразуване на резултатите на пикселно ниво в резултати за откриване.

От горното описание се вижда, че тъй като има операция, която използва прагове за определяне на преден и заден план, тази операция е неразличима, така че не е възможно да се използва мрежата за въвеждане на тази част от процеса в мрежата за обучение. Процесът е показан с червената стрелка на изображението по-горе.

1. Структура на мрежата

Структурата на мрежата в тази статия е показана на следващата фигура, по време на процеса на обучение, след като изображението се въведе в мрежата, синята карта на характеристики на горната фигура се нарича F след извличане на обекти и нагоре-семплиране, сливане и операция concat, а след това вероятностната карта (вероятностна карта) се предсказва от F, наречена P, а праговата карта (праговата карта) се предсказва от F, се нарича T, и накрая приблизителното двоично отображение B ^ се изчислява чрез P и T. Текстовото поле за процеса на извод може да се получи чрез приблизителен двоичен граф или граф на вероятности.

2. Бинарен

2.1 Бинаризация на стандартите

2.2 Диференцируема бинаризация

Горният метод на бинаризация не е диференцируем, затова не може да бъде оптимизиран в мрежово обучение. За да се реши този проблем, тази статия предлага приблизителна стъпкова функция:

Изходът от горното уравнение B ^ представлява приблизителния двоичен граф, T е праговата графа на мрежовото обучение, а k е фактор, и тази статия е зададена на 50. Диаграмата на тази функция е много подобна на стъпковата функция по-горе, както е показано на фигура A на фигурата по-долу.

3. Адаптивен праг

Горното описва как да се направи двоичен P в приблизителен двоичен граф B ^ след получаване на вероятностната графа P и праговата графа T. Този раздел обяснява как да се получат етикетите на вероятност P, праг T и двоичен граф B^.

3.1 Деформационна свивка

Тъй като може да са необходими големи рецептивни полета, статията прилага деформационна конволюция към мрежа от ResNet-18 или ResNet-50.

Функция на загубата

Формулата за функцията на загуба, използвана в текста, е следната:

заключавам

Оригинален:Входът към хиперлинк е видим.

Основните принципи на дълбокото обучение DBNet

Свързани публикации

Разгледани секции