Основные принципы глубокого обучения DBNet

Маленькая мразь · Опубликовано 19.01.2025 12:26:21

Оригинальная ссылка:Вход по гиперссылке виден.
Оригинальная ссылка на код:Вход по гиперссылке виден.
Размножение лучше:Вход по гиперссылке виден.

В настоящее время обнаружение текста можно примерно разделить на две категории: методы на основе регрессии и методы сегментации. Общий процесс метода, основанный на сегментации, показан синей стрелкой на рисунке ниже: сначала результат сегментации изображения выводится через сеть (граф вероятности, является ли каждый пиксель положительным выборкой), заранее установленный порог используется для преобразования графа результатов сегментации в двоичный график, а затем используются некоторые операции агрегации, такие как соединение доменов, для преобразования результатов на уровне пикселей в результаты обнаружения.

Из приведённого выше описания видно, что поскольку существует операция, использующая пороги для определения переднего и заднего плана, эта операция неотличима, поэтому невозможно использовать сеть для внедрения этой части процесса в сеть для обучения. Процесс показан красной стрелкой на изображении выше.

1. Структура сети

Структура сети в этой статье показана на следующем рисунке: во время процесса обучения, после ввода изображения в сеть, синяя отображение признаков на приведённом выше рисунке называется F после извлечения и увеличения выборки, слияния и операции concat, затем вероятностное отображение (вероятностное отображение) предсказывается F, называемым P, а пороговое отображение (пороговое отображение) F — T, и, наконец, приблизительное бинарное отображение B^ вычисляется через P и T. Текстовое поле процесса вывода можно получить с помощью приближённого бинарного графа или графа вероятностей.

2. Бинарность

2.1 Бинаризация стандартов

2.2 Дифференцируемая бинаризация

Вышеуказанный метод бинаризации не дифференцируем, поэтому его нельзя оптимизировать в сетевом обучении. Для решения этой задачи в этой статье предлагается приблизительная пошаговая функция:

Результат вышеуказанного уравнения B^ представляет собой приблизительный двоичный граф, T — пороговый граф сетевого обучения, k — множитель, и эта статья установлена на 50. Диаграмма этой функции очень похожа на пошаговую функцию выше, как показано на рисунке A на рисунке ниже.

3. Адаптивный порог

Выше описано, как сделать двоичный P в приближённый двоичный граф B ^ после получения вероятностного графа P и порогового графа T. В этом разделе объясняется, как получить метки вероятности P, порога T и бинарного графа B^.

3.1 Деформационная свёртка

Поскольку могут потребоваться большие рецептивные поля, в статье применяется деформационная свёртка к сети ResNet-18 или ResNet-50.

Функция потерь

Формула функции потерь, используемая в тексте, следующая:

выводить

Исходный текст:Вход по гиперссылке виден.

Основные принципы глубокого обучения DBNet

Связанные публикации

Просмотренные разделы