Основні принципи глибокого навчання DBNet

Маленька покидька · Опубліковано 19.01.2025 12:26:21

Оригінальне посилання:Вхід за гіперпосиланням видно.
Оригінальне посилання на код:Вхід за гіперпосиланням видно.
Розмноження краще:Вхід за гіперпосиланням видно.

Наразі виявлення тексту можна приблизно поділити на дві категорії: методи на основі регресії та методи сегментації. Загальний процес сегментації на основі сегментації показаний синьою стрілкою на рисунку нижче: спочатку результат сегментації зображення виводиться через мережу (граф ймовірності, чи є кожен піксель позитивним вибірком), попередньо встановлений поріг використовується для перетворення графіка результатів сегментації у бінарний графік, а також деякі операції агрегації, такі як з'єднання доменів, використовуються для перетворення результатів на рівні пікселя у результати виявлення.

З наведеного вище опису видно, що оскільки існує операція, яка використовує пороги для визначення переднього та заднього плану, ця операція є невідмінною, тому неможливо використати мережу для передачі цієї частини процесу в мережу для навчання. Процес показано червоною стрілкою на зображенні вище.

1. Структура мережі

Структура мережі в цій статті показана на наступному рисунку, під час процесу навчання, після введення зображення в мережу, синє відображення ознак на наведеному вище рисунку називається F після вилучення ознак, злиття та операції concat, а потім ймовірнісна карта (ймовірнісна карта) передбачена F як P, а порогове (порогове відображення) F називається T, і нарешті приблизне бінарне відображення B ^ обчислюється через P і T. Текстове поле процесу виведення можна отримати за допомогою приблизного бінарного графа або ймовірнісного графа.

2. Бінарність

2.1 Бінаризація стандартів

2.2 Диференційована бінаризація

Наведений вище метод бінаризації не є диференційованим, тому його не можна оптимізувати в мережевому навчанні. Щоб розв'язати цю задачу, у цій статті пропонується наближена крокова функція:

Вихід наведеного рівняння B^ представляє приблизний бінарний граф, T — пороговий граф мережевого навчання, k — множник, і ця стаття встановлена на 50. Діаграма цієї функції дуже схожа на крокову функцію вище, як показано на рисунку A на рисунку нижче.

3. Адаптивний поріг

Вище описано, як перетворити бінарний граф P на приблизний бінарний граф B ^ після отримання графа ймовірностей P та порогового графа T. У цьому розділі пояснюється, як отримати мітки ймовірності P, порогу T та бінарного графа B^.

3.1 Деформаційна згортка

Оскільки можуть знадобитися великі рецептивні поля, у статті застосовується деформаційна згортка до мережі ResNet-18 або ResNet-50.

Функція втрат

Формула функції втрат, що використовується в тексті, виглядає так:

Вивести

Оригінальний:Вхід за гіперпосиланням видно.

Основні принципи глибокого навчання DBNet

Пов'язані дописи

Переглянуті розділи