Ben üniversite için bir veri görselleştirme projesi için blogger.com veri toplamak için bir örümcek oluşturma çünkü bu sorun.
Örümcek browse function blogger yaklaşık 17.000 değerler için bakmak ve doğru kriterlere uygun ise (anonim) belli olanları kurtaracak.
Ben (PHP ile yazılmış) örümcek çalışan oldum ve gayet iyi çalışıyor, ama benim IP kara listeye veya böyle bir şey olmasını istemiyorum. Herkes kurumsal siteleri ve bu gibi şeyler üzerinde kısıtlamalar herhangi bir bilgi var mı?
Kısıtlamalar yerinde varsa Dahası, ben bunları aşmak için yapabileceğim bir şey var mı? Şu anda ben biraz sorunu yardımcı olmak için aklınıza gelebilecek bütün olduğunu; (0 ile 5 saniye arasında) sitesine çağrıları arasında rastgele bir gecikme ekleyerek veya istekleri gizlemeye rastgele vekiller yoluyla komut dosyası çalıştıran.
Yukarıdaki yöntemlerden gibi şeyler yapmak zorunda tarafından, ben yanlış bir şey yapıyorum sanki bana hissettiriyor. Onlar blogger.com Google aittir ve ana ürün bir web örümcek olduğunu, çünkü her ne sebeple beni engellemek için olsaydı ben rahatsız olurdu. Allbeit, onların örümcek sadece bir web sitesi kendi istekleri göndermek değildir.