Эта статья является зеркальной статьёй машинного перевода, пожалуйста, нажмите здесь, чтобы перейти к оригиналу.

Вид: 1800|Ответ: 0

Основные принципы глубокого обучения DBNet

[Скопировать ссылку]
Опубликовано 19.01.2025 12:26:21 | | | |
Оригинальная ссылка:Вход по гиперссылке виден.
Оригинальная ссылка на код:Вход по гиперссылке виден.
Размножение лучше:Вход по гиперссылке виден.

В настоящее время обнаружение текста можно примерно разделить на две категории: методы на основе регрессии и методы сегментации. Общий процесс метода, основанный на сегментации, показан синей стрелкой на рисунке ниже: сначала результат сегментации изображения выводится через сеть (граф вероятности, является ли каждый пиксель положительным выборкой), заранее установленный порог используется для преобразования графа результатов сегментации в двоичный график, а затем используются некоторые операции агрегации, такие как соединение доменов, для преобразования результатов на уровне пикселей в результаты обнаружения.



Из приведённого выше описания видно, что поскольку существует операция, использующая пороги для определения переднего и заднего плана, эта операция неотличима, поэтому невозможно использовать сеть для внедрения этой части процесса в сеть для обучения. Процесс показан красной стрелкой на изображении выше.

1. Структура сети

Структура сети в этой статье показана на следующем рисунке: во время процесса обучения, после ввода изображения в сеть, синяя отображение признаков на приведённом выше рисунке называется F после извлечения и увеличения выборки, слияния и операции concat, затем вероятностное отображение (вероятностное отображение) предсказывается F, называемым P, а пороговое отображение (пороговое отображение) F — T, и, наконец, приблизительное бинарное отображение B^ вычисляется через P и T. Текстовое поле процесса вывода можно получить с помощью приближённого бинарного графа или графа вероятностей.



2. Бинарность


2.1 Бинаризация стандартов



2.2 Дифференцируемая бинаризация


Вышеуказанный метод бинаризации не дифференцируем, поэтому его нельзя оптимизировать в сетевом обучении. Для решения этой задачи в этой статье предлагается приблизительная пошаговая функция:



Результат вышеуказанного уравнения B^ представляет собой приблизительный двоичный граф, T — пороговый граф сетевого обучения, k — множитель, и эта статья установлена на 50. Диаграмма этой функции очень похожа на пошаговую функцию выше, как показано на рисунке A на рисунке ниже.



3. Адаптивный порог

Выше описано, как сделать двоичный P в приближённый двоичный граф B ^ после получения вероятностного графа P и порогового графа T. В этом разделе объясняется, как получить метки вероятности P, порога T и бинарного графа B^.

3.1 Деформационная свёртка

Поскольку могут потребоваться большие рецептивные поля, в статье применяется деформационная свёртка к сети ResNet-18 или ResNet-50.



Функция потерь

Формула функции потерь, используемая в тексте, следующая:



выводить




Исходный текст:Вход по гиперссылке виден.




Предыдущий:Серия Angular 18 (тридцатая) создаёт рабочее пространство
Следующий:Преобразуйте модель весла в формат модели ONNX
Отказ:
Всё программное обеспечение, программные материалы или статьи, публикуемые Code Farmer Network, предназначены исключительно для учебных и исследовательских целей; Вышеуказанный контент не должен использоваться в коммерческих или незаконных целях, иначе пользователи несут все последствия. Информация на этом сайте взята из Интернета, и споры по авторским правам не имеют отношения к этому сайту. Вы должны полностью удалить вышеуказанный контент с компьютера в течение 24 часов после загрузки. Если вам нравится программа, пожалуйста, поддержите подлинное программное обеспечение, купите регистрацию и получите лучшие подлинные услуги. Если есть нарушение, пожалуйста, свяжитесь с нами по электронной почте.

Mail To:help@itsvse.com