Bazı PHP ile kazıma ve belirli bir etki alanı üzerine bazı tuhaf sonuçlar elde yapıyorum. Örneğin, ben bu sayfayı indirmek zaman:
http://pitchfork.com/reviews/tracks/
Bu çalışıyor. Ancak ben bu sayfayı indirmek için çalışırsanız:
http://pitchfork.com/reviews/tracks/1/
Bu içeriği tam olarak aynı olsa bile, eksik bir sayfa döndürür. Tüm sonraki sayfaları da eksik verileri döndürmek (parça / 2 / etc, / 3 / izler).
Bu URL'ler pagination sırasında oluşan yolu ile bir sorun gibi görünüyor. Sitede en çok diğer bölümler aynı davranışı sergiler (açılış sayfası eserler, ancak sonraki değil sayfa). Tek istisna bu bölüm:
http://pitchfork.com/forkcast/
Nerede forkcast / 2 / etc iyi çalışıyor. Bu, tek bir dizin çoğu diğer bölümleri derin birden fazla dizin nerede, derin olması nedeniyle olabilir.
Ben soruna neden ne bir kavrayışa sahip görünüyor, ama değil neden veya nasıl tamir edilebilir.
Herhangi bir fikir?
Ben file_get_contents kullanarak denedim () ve cURL ve hem de aynı sonucu verir.
İlginçtir, işe yaramayan tüm sayfalarda, eksik sayfa kabaca 16.000 karakter uzunluğunda olduğunu. Bu bir ipucu var mı?
Seni farkı görebilirsiniz bir test sayfası oluşturduk:
http://fingerfy.com/test.php?url=http://pitchfork.com/reviews/tracks/
http://fingerfy.com/test.php?url=http://pitchfork.com/reviews/tracks/1/
Bu strlen () ve indirilen sayfanın içeriğini yazdırır (artı CSS doğru olduğunu böylece mutlak içine göreceli adresler yapar).
Herhangi bir ipucu harika olurdu!
GÜNCELLEME: Mobil cihazlar için sayfalarını optimize Mowser, bu sayfalar ile hiçbir sorun vardır (http://mowser.com/web/pitchfork.com/reviews/tracks/2/) yani bu başarısız olmadan bunu yapmak için bir yol olmalı. ...