Bu makale makine çevirisi ayna makalesidir, orijinal makaleye geçmek için lütfen buraya tıklayın.

Görünüm: 1800|Yanıt: 0

Derin öğrenme DBNet'in temel ilkeleri

[Bağlantıyı kopyala]
2025-1-19 tarihinde yayınlandı 12:26:21 | | | |
Orijinal bağlantı:Bağlantı girişi görünür.
Orijinal kod bağlantısı:Bağlantı girişi görünür.
Üreme daha iyidir:Bağlantı girişi görünür.

Şu anda metin algılama kabaca iki kategoriye ayrılabilir: regresyon tabanlı yöntemler ve segmentasyon tabanlı yöntemler. Segmentasyona dayalı genel yöntem süreci aşağıdaki şekilde mavi okta gösterilmiştir: önce, görselin metin segmentasyon sonucu ağ üzerinden (olasılık grafiği, her pikselin pozitif örnek olup olmadığı) çıkarılır, önceden belirlenmiş eşik segmentasyon sonuç grafiğini ikili bir grafike dönüştürmek için kullanılır ve son olarak, piksel düzeyindeki sonuçları tespit sonuçlarına dönüştürmek için alan bağlantıları gibi bazı toplama işlemleri kullanılır.



Yukarıdaki açıklamadan, ön plan ve arka planı belirlemek için eşikler kullanan bir işlem olduğu için bu işlemin ayırt edilemez olduğu ve bu sürecin bu kısmını eğitim için ağa koymak için ağ kullanılarak kullanılamadığı görülebilir. Bu süreç, yukarıdaki görselde kırmızı okla gösterilmiştir.

1. Ağ yapısı

Bu makaledeki ağ yapısı aşağıdaki şekilde gösterilmiştir; eğitim sürecinde, resim ağa girildikten sonra, yukarıdaki şekilde mavi özellik haritası özellik çıkarımı ve upsampling füzyon ile concat işlemi sonrası F olarak adlandırılır, ardından olasılık haritası (olasılık haritası) F tarafından P olarak adlandırılır ve eşik haritası (eşik haritası) F tarafından tahmin edilir, T olarak adlandırılır ve son olarak yaklaşık ikili harita B ^ P ve T üzerinden hesaplanır. Çıkarım süreci metin kutusu, yaklaşık ikili grafik veya olasılık grafiği ile elde edilebilir.



2. İkili


2.1 Standartların ikilendirilmesi



2.2 Diferansiylenebilir ikili yapı


Yukarıdaki ikili yöntem türevlenebilir değildir, bu nedenle ağ öğreniminde optimize edilemez. Bu problemi çözmek için, bu makale yaklaşık bir adım fonksiyonu önerir:



Yukarıdaki denklemin B ^ çıktısı yaklaşık ikili grafiği temsil eder, T ağ öğreniminin eşik grafiğidir ve k bir faktördür ve bu makale 50 olarak ayarlanmıştır. Bu fonksiyonun diyagramı, yukarıdaki adım fonksiyonuna çok benzer; aşağıdaki şekilde A şeklinde gösterilmiştir.



3. Adaptif eşik

Yukarıda, olasılık grafiği P ve eşik grafiği T elde edildikten sonra yaklaşık ikili bir grafik B ^ olarak ikili P nasıl yapılır ve bu durum açıklanır. Bu bölüm, Olasılık P, Eşik T ve İkili Grafik B^ etiketlerinin nasıl alınacağını açıklar.

3.1 Deformasyon konvolüsyonu

Büyük alıcı alanlar gerekebileceği için, makale deformasyon konvolüsyonunu ResNet-18 veya ResNet-50 ağlarına uygular.



Kayıp fonksiyonu

Metinde kullanılan kayıp fonksiyonunun formülü şu şekildedir:



Anlamak




Özgün:Bağlantı girişi görünür.




Önceki:Angular 18 serisi (otuz) bir çalışma alanı oluşturur
Önümüzdeki:Paddle modelini ONNX model formatına dönüştürün
Feragatname:
Code Farmer Network tarafından yayımlanan tüm yazılım, programlama materyalleri veya makaleler yalnızca öğrenme ve araştırma amaçları içindir; Yukarıdaki içerik ticari veya yasa dışı amaçlarla kullanılamaz, aksi takdirde kullanıcılar tüm sonuçları ödemelidir. Bu sitedeki bilgiler internetten alınmakta olup, telif hakkı anlaşmazlıklarının bu siteyle hiçbir ilgisi yoktur. Yukarıdaki içeriği indirmeden sonraki 24 saat içinde bilgisayarınızdan tamamen silmelisiniz. Programı beğendiyseniz, lütfen orijinal yazılımı destekleyin, kayıt satın alın ve daha iyi orijinal hizmetler alın. Herhangi bir ihlal olursa, lütfen bizimle e-posta yoluyla iletişime geçin.

Mail To:help@itsvse.com