Ця стаття є дзеркальною статтею машинного перекладу, будь ласка, натисніть тут, щоб перейти до оригінальної статті.

Вид: 1800|Відповідь: 0

Основні принципи глибокого навчання DBNet

[Копіювати посилання]
Опубліковано 2025-1-19 12:26:21 | | | |
Оригінальне посилання:Вхід за гіперпосиланням видно.
Оригінальне посилання на код:Вхід за гіперпосиланням видно.
Розмноження краще:Вхід за гіперпосиланням видно.

Наразі виявлення тексту можна приблизно поділити на дві категорії: методи на основі регресії та методи сегментації. Загальний процес сегментації на основі сегментації показаний синьою стрілкою на рисунку нижче: спочатку результат сегментації зображення виводиться через мережу (граф ймовірності, чи є кожен піксель позитивним вибірком), попередньо встановлений поріг використовується для перетворення графіка результатів сегментації у бінарний графік, а також деякі операції агрегації, такі як з'єднання доменів, використовуються для перетворення результатів на рівні пікселя у результати виявлення.



З наведеного вище опису видно, що оскільки існує операція, яка використовує пороги для визначення переднього та заднього плану, ця операція є невідмінною, тому неможливо використати мережу для передачі цієї частини процесу в мережу для навчання. Процес показано червоною стрілкою на зображенні вище.

1. Структура мережі

Структура мережі в цій статті показана на наступному рисунку, під час процесу навчання, після введення зображення в мережу, синє відображення ознак на наведеному вище рисунку називається F після вилучення ознак, злиття та операції concat, а потім ймовірнісна карта (ймовірнісна карта) передбачена F як P, а порогове (порогове відображення) F називається T, і нарешті приблизне бінарне відображення B ^ обчислюється через P і T. Текстове поле процесу виведення можна отримати за допомогою приблизного бінарного графа або ймовірнісного графа.



2. Бінарність


2.1 Бінаризація стандартів



2.2 Диференційована бінаризація


Наведений вище метод бінаризації не є диференційованим, тому його не можна оптимізувати в мережевому навчанні. Щоб розв'язати цю задачу, у цій статті пропонується наближена крокова функція:



Вихід наведеного рівняння B^ представляє приблизний бінарний граф, T — пороговий граф мережевого навчання, k — множник, і ця стаття встановлена на 50. Діаграма цієї функції дуже схожа на крокову функцію вище, як показано на рисунку A на рисунку нижче.



3. Адаптивний поріг

Вище описано, як перетворити бінарний граф P на приблизний бінарний граф B ^ після отримання графа ймовірностей P та порогового графа T. У цьому розділі пояснюється, як отримати мітки ймовірності P, порогу T та бінарного графа B^.

3.1 Деформаційна згортка

Оскільки можуть знадобитися великі рецептивні поля, у статті застосовується деформаційна згортка до мережі ResNet-18 або ResNet-50.



Функція втрат

Формула функції втрат, що використовується в тексті, виглядає так:



Вивести




Оригінальний:Вхід за гіперпосиланням видно.




Попередній:Angular серія 18 (тридцять) створює робочий простір
Наступний:Конвертуйте модель весла у формат моделі ONNX
Застереження:
Усе програмне забезпечення, програмні матеріали або статті, опубліковані Code Farmer Network, призначені лише для навчання та досліджень; Вищезазначений контент не повинен використовуватися в комерційних чи незаконних цілях, інакше користувачі несуть усі наслідки. Інформація на цьому сайті надходить з Інтернету, і спори щодо авторських прав не мають до цього сайту. Ви повинні повністю видалити вищезазначений контент зі свого комп'ютера протягом 24 годин після завантаження. Якщо вам подобається програма, будь ласка, підтримуйте справжнє програмне забезпечення, купуйте реєстрацію та отримайте кращі справжні послуги. Якщо є будь-яке порушення, будь ласка, зв'яжіться з нами електронною поштою.

Mail To:help@itsvse.com