Orijinal bağlantı:Bağlantı girişi görünür. Orijinal kod bağlantısı:Bağlantı girişi görünür. Üreme daha iyidir:Bağlantı girişi görünür.
Şu anda metin algılama kabaca iki kategoriye ayrılabilir: regresyon tabanlı yöntemler ve segmentasyon tabanlı yöntemler. Segmentasyona dayalı genel yöntem süreci aşağıdaki şekilde mavi okta gösterilmiştir: önce, görselin metin segmentasyon sonucu ağ üzerinden (olasılık grafiği, her pikselin pozitif örnek olup olmadığı) çıkarılır, önceden belirlenmiş eşik segmentasyon sonuç grafiğini ikili bir grafike dönüştürmek için kullanılır ve son olarak, piksel düzeyindeki sonuçları tespit sonuçlarına dönüştürmek için alan bağlantıları gibi bazı toplama işlemleri kullanılır.
Yukarıdaki açıklamadan, ön plan ve arka planı belirlemek için eşikler kullanan bir işlem olduğu için bu işlemin ayırt edilemez olduğu ve bu sürecin bu kısmını eğitim için ağa koymak için ağ kullanılarak kullanılamadığı görülebilir. Bu süreç, yukarıdaki görselde kırmızı okla gösterilmiştir.
1. Ağ yapısı
Bu makaledeki ağ yapısı aşağıdaki şekilde gösterilmiştir; eğitim sürecinde, resim ağa girildikten sonra, yukarıdaki şekilde mavi özellik haritası özellik çıkarımı ve upsampling füzyon ile concat işlemi sonrası F olarak adlandırılır, ardından olasılık haritası (olasılık haritası) F tarafından P olarak adlandırılır ve eşik haritası (eşik haritası) F tarafından tahmin edilir, T olarak adlandırılır ve son olarak yaklaşık ikili harita B ^ P ve T üzerinden hesaplanır. Çıkarım süreci metin kutusu, yaklaşık ikili grafik veya olasılık grafiği ile elde edilebilir.
2. İkili
2.1 Standartların ikilendirilmesi
2.2 Diferansiylenebilir ikili yapı
Yukarıdaki ikili yöntem türevlenebilir değildir, bu nedenle ağ öğreniminde optimize edilemez. Bu problemi çözmek için, bu makale yaklaşık bir adım fonksiyonu önerir:
Yukarıdaki denklemin B ^ çıktısı yaklaşık ikili grafiği temsil eder, T ağ öğreniminin eşik grafiğidir ve k bir faktördür ve bu makale 50 olarak ayarlanmıştır. Bu fonksiyonun diyagramı, yukarıdaki adım fonksiyonuna çok benzer; aşağıdaki şekilde A şeklinde gösterilmiştir.
3. Adaptif eşik
Yukarıda, olasılık grafiği P ve eşik grafiği T elde edildikten sonra yaklaşık ikili bir grafik B ^ olarak ikili P nasıl yapılır ve bu durum açıklanır. Bu bölüm, Olasılık P, Eşik T ve İkili Grafik B^ etiketlerinin nasıl alınacağını açıklar.
3.1 Deformasyon konvolüsyonu
Büyük alıcı alanlar gerekebileceği için, makale deformasyon konvolüsyonunu ResNet-18 veya ResNet-50 ağlarına uygular.
Kayıp fonksiyonu
Metinde kullanılan kayıp fonksiyonunun formülü şu şekildedir:
Anlamak
Özgün:Bağlantı girişi görünür.
|