Bu makale makine çevirisi ayna makalesidir, orijinal makaleye geçmek için lütfen buraya tıklayın.

Görünüm: 13152|Yanıt: 2

Dağıtık tarayıcıların proxy IP'leri kullanması için birkaç şema

[Bağlantıyı kopyala]
Yayınlandı 17.07.2018 13:54:35 | | |
Proxy IP'si olmadan, tarayıcı işi zor olur, bu yüzden birçok tarayıcı mühendisi verimli ve istikrarlı proxy IP'yi satın almak zorunda. Yüksek kaliteli bir proxy IP'yle rahatlayabilir misiniz? İşler o kadar basit değil ve ayrıca programı optimize etmek, kaynakları mantıklı şekilde tahsis etmek, iş verimliliğini artırmak ve crawler işlerini daha verimli, daha hızlı ve istikrarlı şekilde yürütmek de gereklidir.

Seçenek 1: Her süreç, arayüz API'sinden rastgele bir IP listesini seçer (örneğin, aynı anda 100 IP çıkararak) ve ardından başarısız olursa API'yi çağırarak bunları elde eder ve genel mantık şöyledir:

1. Her süreç (veya iş parçacığı) arayüzden rastgele bir grup IP alır ve IP listesinden bir döngü halinde veri almaya çalışır.

2. Erişim başarılıysa, bir sonrakini almaya devam edin.

3. Başarısız olursa (örneğin zaman aşımı veya doğrulama kodu vb.), arayüzden bir grup IP alıp denemeye devam edin.

Çözümün dezavantajları: Her IP'nin bir son kullanma tarihi vardır; eğer 100 çıkarılırsa, 10. IP'nin çoğu geçersiz olabilir. Bağlantı süresi 3 saniye ve okuma süresi 5 saniye olan bir HTTP isteği kurarsanız, 3-8 saniye zaman kaybedebilirsiniz ve belki bu 3-8 saniye onlarca kez alınabilir.

Seçenek 2: Her süreç, arayüz API'sinden rastgele bir IP alır ve başarısız olursa API'yi çağırarak IP alır, genel mantık şöyledir:

1. Her süreç (veya iş parçacığı) rastgele bir IP'yi arayüzden alır ve bu IP'yi kaynaklara erişmek için kullanır.

2. Erişim başarılıysa, bir sonrakini almaya devam edin.

3. Eğer başarısız olursa (örneğin zaman aşımı, doğrulama kodu vb.), arayüzden rastgele bir IP seçip denemeye devam edin.

Dezavantajlar: IP adresleri almak için API'leri çağırmak çok sıktır; bu da proxy sunucu üzerinde büyük baskı oluşturur, API arayüzünün kararlılığını etkiler ve çıkarma kısıtlanabilir. Bu program da uygun değildir ve sürdürülebilir ve istikrarlı bir şekilde işletilemez.

Seçenek 3: İlk olarak, çok sayıda IP çıkarıp yerel veritabanına aktarın, ardından IP'yi veritabanından alın, genel mantık şöyledir:

1. Veritabanında bir tablo oluşturun, bir içe aktarma betiği yazın, dakikada API'yi talep edin (proxy IP hizmet sağlayıcısının önerilerine bakın) ve IP listesini veritabanına aktarın.

2. Veritabanındaki aktarma süresi, IP, port, son kullanma süresi, IP kullanılabilirlik durumu ve diğer alanları kaydedin;

3. Bir yakalama betiği yaz, crab script veritabanından mevcut IP'yi okur ve her süreç veritabanından kullanım için bir IP alır.

4. Tarama yapın, sonuçları değerlendirin, çerezleri işleyin, doğrulama kodu veya hata varsa, bu IP'yi verin ve yeni bir IP'ye geçin.

Bu çözüm, proxy sunucu kaynaklarının tüketilmesini etkili bir şekilde önler, proxy IP'nin kullanımını etkili bir şekilde tahsis eder, daha verimli ve stabildir, ayrıca tarayıcı çalışmalarının dayanıklılığını ve kararlılığını sağlar.




Önceki:Hreflang'ı SEO için nasıl kullanılır
Önümüzdeki:HATA 1093 (HY000): Güncelleme için hedef tablo 'xxx' belirtemezsiniz...
Yayınlandı 18.07.2018 14:50:55 |
Şema 3 ve Şema 1 aynı değil mi, çok sayıda IP çıkarırsan, sonra kullanılmayanlar yakında geçer
Yayınlandı 29.01.2019 21:06:25 |
Mark, fikri öğrendim, sonra yazmaya çalışacağım
Feragatname:
Code Farmer Network tarafından yayımlanan tüm yazılım, programlama materyalleri veya makaleler yalnızca öğrenme ve araştırma amaçları içindir; Yukarıdaki içerik ticari veya yasa dışı amaçlarla kullanılamaz, aksi takdirde kullanıcılar tüm sonuçları ödemelidir. Bu sitedeki bilgiler internetten alınmakta olup, telif hakkı anlaşmazlıklarının bu siteyle hiçbir ilgisi yoktur. Yukarıdaki içeriği indirmeden sonraki 24 saat içinde bilgisayarınızdan tamamen silmelisiniz. Programı beğendiyseniz, lütfen orijinal yazılımı destekleyin, kayıt satın alın ve daha iyi orijinal hizmetler alın. Herhangi bir ihlal olursa, lütfen bizimle e-posta yoluyla iletişime geçin.

Mail To:help@itsvse.com