Popüler web sitesi Here>
4 Cevap php

Ben üniversite için bir veri görselleştirme projesi için blogger.com veri toplamak için bir örümcek oluşturma çünkü bu sorun.

Örümcek browse function blogger yaklaşık 17.000 değerler için bakmak ve doğru kriterlere uygun ise (anonim) belli olanları kurtaracak.

Ben (PHP ile yazılmış) örümcek çalışan oldum ve gayet iyi çalışıyor, ama benim IP kara listeye veya böyle bir şey olmasını istemiyorum. Herkes kurumsal siteleri ve bu gibi şeyler üzerinde kısıtlamalar herhangi bir bilgi var mı?

Kısıtlamalar yerinde varsa Dahası, ben bunları aşmak için yapabileceğim bir şey var mı? Şu anda ben biraz sorunu yardımcı olmak için aklınıza gelebilecek bütün olduğunu; (0 ile 5 saniye arasında) sitesine çağrıları arasında rastgele bir gecikme ekleyerek veya istekleri gizlemeye rastgele vekiller yoluyla komut dosyası çalıştıran.

Yukarıdaki yöntemlerden gibi şeyler yapmak zorunda tarafından, ben yanlış bir şey yapıyorum sanki bana hissettiriyor. Onlar blogger.com Google aittir ve ana ürün bir web örümcek olduğunu, çünkü her ne sebeple beni engellemek için olsaydı ben rahatsız olurdu. Allbeit, onların örümcek sadece bir web sitesi kendi istekleri göndermek değildir.

4 Cevap

Onlar kısıtlama çeşit var muhtemelen, ve evet orada onlara (bot çiftlikleri ve örneğin rastgele vekiller kullanarak) aşmak için yolu vardır ama bunların hiçbiri tam olarak teknik, hukuki, ne de çok mümkün olacağı muhtemeldir :)

Eğer blogger erişen varsa, bir API key kullanarak giriş yapamaz ve zaten doğrudan verilerini sorgulamak? Zaten yasak olabilir, hangi sorun eğilimli kendi sayfasını kazıma daha güvenilir ve daha az olması ve isteklerin sayısı da umurumda başlar yeterince büyük bir kez sorun yol açacak. Google, API anahtarı başına izin trafik miktarı ile çok cömert.

Bütün bunlardan başarısız olursa, neden onlara bir e-posta yazmak değil. Google akademik projelere karşı samimi olmanın bir üne sahiptir ve gerekirse onlar da size daha fazla trafik hibe olabilir.

Eğer bir örümcek yazarken olduğundan, robots.txt dosyasını okur ve buna göre yapar emin olun. Ayrıca, HTTP kurallarından biri aynı sunucu üzerinde fazla 2 eşzamanlı istekleri var değildir. Google'ın sunucuları, gerçekten güçlü, Merak etmeyin. Sadece zaman sayfaları birini okursanız, muhtemelen farkına bile olmaz. Eğer 1 saniye aralıkla enjekte ederseniz, tamamen zararsız olacaktır.

Bu DDOS saldırı gibi görünüyor, çünkü, diğer yandan, bir ya da başka bir dağıtılmış botnete yaklaşımı kullanarak, zararlı davranış olarak kabul edilir. Gerçekten bu yönde düşünce olmamalıdır.

Emin için bilmek istiyorsanız, blogger.com bir e-posta yazmak ve isteyin.

Eğer TOR Bir peformance maliyetle farklı bir IP her zaman olurdu o yoluyla talep edebilir.