Оригінальне посилання:Вхід за гіперпосиланням видно. Оригінальне посилання на код:Вхід за гіперпосиланням видно. Розмноження краще:Вхід за гіперпосиланням видно.
Наразі виявлення тексту можна приблизно поділити на дві категорії: методи на основі регресії та методи сегментації. Загальний процес сегментації на основі сегментації показаний синьою стрілкою на рисунку нижче: спочатку результат сегментації зображення виводиться через мережу (граф ймовірності, чи є кожен піксель позитивним вибірком), попередньо встановлений поріг використовується для перетворення графіка результатів сегментації у бінарний графік, а також деякі операції агрегації, такі як з'єднання доменів, використовуються для перетворення результатів на рівні пікселя у результати виявлення.
З наведеного вище опису видно, що оскільки існує операція, яка використовує пороги для визначення переднього та заднього плану, ця операція є невідмінною, тому неможливо використати мережу для передачі цієї частини процесу в мережу для навчання. Процес показано червоною стрілкою на зображенні вище.
1. Структура мережі
Структура мережі в цій статті показана на наступному рисунку, під час процесу навчання, після введення зображення в мережу, синє відображення ознак на наведеному вище рисунку називається F після вилучення ознак, злиття та операції concat, а потім ймовірнісна карта (ймовірнісна карта) передбачена F як P, а порогове (порогове відображення) F називається T, і нарешті приблизне бінарне відображення B ^ обчислюється через P і T. Текстове поле процесу виведення можна отримати за допомогою приблизного бінарного графа або ймовірнісного графа.
2. Бінарність
2.1 Бінаризація стандартів
2.2 Диференційована бінаризація
Наведений вище метод бінаризації не є диференційованим, тому його не можна оптимізувати в мережевому навчанні. Щоб розв'язати цю задачу, у цій статті пропонується наближена крокова функція:
Вихід наведеного рівняння B^ представляє приблизний бінарний граф, T — пороговий граф мережевого навчання, k — множник, і ця стаття встановлена на 50. Діаграма цієї функції дуже схожа на крокову функцію вище, як показано на рисунку A на рисунку нижче.
3. Адаптивний поріг
Вище описано, як перетворити бінарний граф P на приблизний бінарний граф B ^ після отримання графа ймовірностей P та порогового графа T. У цьому розділі пояснюється, як отримати мітки ймовірності P, порогу T та бінарного графа B^.
3.1 Деформаційна згортка
Оскільки можуть знадобитися великі рецептивні поля, у статті застосовується деформаційна згортка до мережі ResNet-18 або ResNet-50.
Функція втрат
Формула функції втрат, що використовується в тексті, виглядає так:
Вивести
Оригінальний:Вхід за гіперпосиланням видно.
|