Оригинальная ссылка:Вход по гиперссылке виден. Оригинальная ссылка на код:Вход по гиперссылке виден. Размножение лучше:Вход по гиперссылке виден.
В настоящее время обнаружение текста можно примерно разделить на две категории: методы на основе регрессии и методы сегментации. Общий процесс метода, основанный на сегментации, показан синей стрелкой на рисунке ниже: сначала результат сегментации изображения выводится через сеть (граф вероятности, является ли каждый пиксель положительным выборкой), заранее установленный порог используется для преобразования графа результатов сегментации в двоичный график, а затем используются некоторые операции агрегации, такие как соединение доменов, для преобразования результатов на уровне пикселей в результаты обнаружения.
Из приведённого выше описания видно, что поскольку существует операция, использующая пороги для определения переднего и заднего плана, эта операция неотличима, поэтому невозможно использовать сеть для внедрения этой части процесса в сеть для обучения. Процесс показан красной стрелкой на изображении выше.
1. Структура сети
Структура сети в этой статье показана на следующем рисунке: во время процесса обучения, после ввода изображения в сеть, синяя отображение признаков на приведённом выше рисунке называется F после извлечения и увеличения выборки, слияния и операции concat, затем вероятностное отображение (вероятностное отображение) предсказывается F, называемым P, а пороговое отображение (пороговое отображение) F — T, и, наконец, приблизительное бинарное отображение B^ вычисляется через P и T. Текстовое поле процесса вывода можно получить с помощью приближённого бинарного графа или графа вероятностей.
2. Бинарность
2.1 Бинаризация стандартов
2.2 Дифференцируемая бинаризация
Вышеуказанный метод бинаризации не дифференцируем, поэтому его нельзя оптимизировать в сетевом обучении. Для решения этой задачи в этой статье предлагается приблизительная пошаговая функция:
Результат вышеуказанного уравнения B^ представляет собой приблизительный двоичный граф, T — пороговый граф сетевого обучения, k — множитель, и эта статья установлена на 50. Диаграмма этой функции очень похожа на пошаговую функцию выше, как показано на рисунке A на рисунке ниже.
3. Адаптивный порог
Выше описано, как сделать двоичный P в приближённый двоичный граф B ^ после получения вероятностного графа P и порогового графа T. В этом разделе объясняется, как получить метки вероятности P, порога T и бинарного графа B^.
3.1 Деформационная свёртка
Поскольку могут потребоваться большие рецептивные поля, в статье применяется деформационная свёртка к сети ResNet-18 или ResNet-50.
Функция потерь
Формула функции потерь, используемая в тексте, следующая:
выводить
Исходный текст:Вход по гиперссылке виден.
|