Eredeti link:A hiperlink bejelentkezés látható. Eredeti kódlink:A hiperlink bejelentkezés látható. A szaporodás jobb:A hiperlink bejelentkezés látható.
Jelenleg a szövegfelismerés nagyjából két kategóriába sorolható: regressziós alapú módszerek és szegmentáció-alapú módszerek. A szegmentáláson alapuló általános módszerfolyamatot az alábbi ábrán látható a kék nyíl: először a kép szövegszegmentációs eredményét a hálózaton keresztül (valószínűségi gráf, hogy minden pixel pozitív minta-e), az előre beállított küszöbértéket használják a szegmentációs eredménygráfnak bináris diagrammá alakítására, végül pedig néhány aggregációs művelet, például a domainek összekapcsolása, hogy pixelszintű eredményeket detektáló eredményekké alakítsák.
A fenti leírásból látható, hogy mivel van egy művelet, amely küszöbértékeket használ az előtér és a háttér meghatározására, ez a művelet megkülönböztethetetlen, így nem lehet a hálózatot felhasználva ezt a folyamatrészt a hálózatba helyezni a képzés céljából. A folyamatot a fenti képen látható piros nyíl.
1. Hálózati struktúra
A jelen tanulmányban szereplő hálózati szerkezetet a következő ábrán mutatja: a képzési folyamat során, miután a képet bevitték a hálózatba, a fenti ábrán látható kék jellemzőtérképet F-nek nevezik a jellemzők kinyerése és felmintavételezési fúziós és concat művelet után, majd a valószínűségi térképet (valószínűségi leképezést) F, amit P-nek neveznek, a küszöbérték térképet (küszöbérték leképezés) pedig F jelzi T-nek, végül pedig a közelítő bináris leképezés B ^ P és T segítségével számítható ki. A következtetési folyamat szövegdoboza közelítő bináris gráftal vagy valószínűségi gráftal kapható.
2. Bináris
2.1 A szabványok binarizálása
2.2 Differenciálható binarizáció
A fenti binarizációs módszer nem differenciálható, így hálózati tanulásban nem optimalizálható. Ennek a problémának a megoldásához ez a tanulmány egy közelítő lépésfüggvényt javasol:
A fenti egyenlet B ^ kimenete a közelítő bináris gráfot képviseli, T a hálózati tanulás küszöbgráfja, k pedig tényező, és ez a tanulmány 50-re van beállítva. Ennek a függvénynek a diagramja nagyon hasonló a fenti lépésfüggvényhez, ahogy az alábbi ábrán látható A alak.
3. Adaptív küszöb
A fentiek leírják, hogyan lehet bináris P-t egy közelítő bináris gráfba B ^ létrehozni, miután megkapjuk a valószínűségi gráfot P és a küszöbgráfot T. Ez a rész elmagyarázza, hogyan lehet megszerezni a Valószínűség P, Küszöb T és a bináris gráf B^ címkéit.
3.1 Deformációs konvolúció
Mivel nagy receptív mezők szükségesek lehetnek, a cikk deformációs konvolúciót alkalmaz egy ResNet-18 vagy ResNet-50 hálózatra.
Veszteségfüggvény
A szövegben használt veszteségfüggvény képlete a következő:
következtet
Eredeti:A hiperlink bejelentkezés látható.
|