Ez a cikk egy tükör gépi fordítás, kérjük, kattintson ide, hogy ugorjon az eredeti cikkre.

Nézet: 13152|Válasz: 2

Több séma a megosztott crawlerek proxy IP-k használatára

[Linket másol]
Közzétéve 2018. 07. 17. 13:54:35 | | |
Proxy IP nélkül a crawler munka nehéz lesz, ezért sok crawler mérnöknek hatékony és stabil proxy IP-t kell vásárolnia. Magas minőségű proxy IP-vel tudsz hátradőlni és pihenni? A dolgok nem ilyen egyszerűek, és szükség van a rendszer optimalizálására, az erőforrások ésszerű elosztására, a munkahatékonyság javítására, valamint a crawler munka hatékonyabb, gyorsabb és stabilabb elvégzése is.

1. lehetőség: Minden folyamat véletlenszerűen kiválaszt egy IP-listát az interfész API-ból (például egyszerre 100 IP-t kihúzva), hogy átnézze őket, majd ha meghibásodik, az API-t hívja meg, és az általános logika a következő:

1. Minden folyamat (vagy szál) véletlenszerűen letölt egy IP-csomagot az interfészről, és megpróbálja az adatokat az IP-listáról egy hurokban visszanyerni.

2. Ha sikeresen sikeres, folytasd a következő megszerzését.

3. Ha meghibásodik (például időkorlát, ellenőrző kód stb.), vegyél ki egy adag IP-címet az interfészről, és folytasd a próbálkozást.

A megoldás hátrányai: Minden IP-nek van lejárati dátuma, ha 100-at nyernek ki, a 10. példány használatakor, az utóbbi többsége érvénytelen lehet. Ha HTTP kérést állítasz be 3 másodperces kapcsolati időkorláttal és 5 másodperces olvasási időkorláttal, akkor 3-8 másodpercet pazarolhatsz, és talán ezt a 3-8 másodpercet tucatnyi alkalommal is meg lehet ragadni.

2. lehetőség: Minden folyamat egy véletlenszerű IP-t vesz fel az interfész API-jából, majd meghívja az API-t, hogy megszerezze az IP-t, ha az meghibásodik, az általános logika a következő:

1. Minden folyamat (vagy szál) véletlenszerűen letölt egy IP-címet az interfészről, és ezt az IP-t használja az erőforrásokhoz való hozzáféréshez.

2. Ha sikeresen sikeres, folytasd a következő megszerzését.

3. Ha meghibásodik (például időkorlát, ellenőrző kód stb.), akkor véletlenszerűen válassz egy IP-címet az interfészről, és folytasd a próbálkozást.

Hátrányok: Az API-k hívása IP-címek megszerzéséhez nagyon gyakori, ami nagy nyomást gyakorol a proxy szerverre, befolyásolja az API interfész stabilitását, és korlátozhatja a kinyerést. Ez a rendszer sem megfelelő, és nem működtethető fenntartható és stabil módon.

3. lehetőség: Először nagy számú IP-címet vonjunk ki és importáljuk őket a helyi adatbázisba, majd az IP-t az adatbázisból vegyük ki, az általános logika a következő:

1. Hozz létre egy táblázatot az adatbázisban, írj egy import szkriptet, kérd az API-t percenként (kérd meg a proxy IP szolgáltató javaslatait), és importáld az IP-listát az adatbázisba.

2. Jegyezze fel az importidőt, IP-t, portot, lejárati időt, IP elérhetőségi állapotot és egyéb mezőket az adatbázisban;

3. Írj egy grab scriptet, a crab script felolvassa az adatbázisból elérhető IP-t, és minden folyamat szerez egy IP-t az adatbázisból használatra.

4. Végezze el a crawlinget, ítélje meg az eredményeket, dolgozza fel a sütiket, stb., amíg van ellenőrző kód vagy hiba, add fel ezt az IP-t, és válts új IP-re.

Ez a megoldás hatékonyan elkerüli a proxy szerver erőforrások fogyasztását, hatékonyan osztja ki a proxy IP használatát, hatékonyabb és stabilabb, valamint biztosítja a crawler munka tartósságát és stabilitását.




Előző:Hogyan használjuk a Hreflangot SEO-hoz
Következő:HIBA 1093 (HY000): Nem lehet megadni a céltáblát 'xxx' az upda-hoz...
Közzétéve 2018. 07. 18. 14:50:55 |
Nem ugyanaz a Scheme 3 és az Scheme 1, ha sok IP-t húzz ki, és azok, amiket később nem használnak, hamarosan lejárnak
Közzétéve 2019. 01. 29. 21:06:25 |
Mark, megtanultam az ötletet, aztán megpróbálom megírni
Lemondás:
A Code Farmer Network által közzétett összes szoftver, programozási anyag vagy cikk kizárólag tanulási és kutatási célokra szolgál; A fenti tartalmat nem szabad kereskedelmi vagy illegális célokra használni, különben a felhasználók viselik az összes következményet. Az oldalon található információk az internetről származnak, és a szerzői jogi vitáknak semmi köze ehhez az oldalhoz. A fenti tartalmat a letöltés után 24 órán belül teljesen törölni kell a számítógépéről. Ha tetszik a program, kérjük, támogassa a valódi szoftvert, vásároljon regisztrációt, és szerezzen jobb hiteles szolgáltatásokat. Ha bármilyen jogsértés történik, kérjük, vegye fel velünk a kapcsolatot e-mailben.

Mail To:help@itsvse.com