Ben programlı adreslerini kazımak için sürünüyorum her ABD Kongresi üyesi için web sitelerinin bir listesi var. Sitelerin çoğu, altta yatan biçimlendirme değişir, ama siteler yüzlerce yazdığım komut dosyası için beklenen sonuç veren olmadığını görmeye başladı kadar bu başlangıçta bir sorun değildi.
Potansiyel nedenlerini değerlendirmek için biraz daha zaman aldıktan sonra, ben strip_tags()
sonuçlarına çağrıda file_get_contents()
birçok kez sayfa kaynağının en silme bulundu! Bu HTML kaldırarak, ben kazımak istedim olmayan HTML çıkarmadan değil sadece!
Yani strip_tags()
, tüm alfanümerik olmayan karakterleri kaldırmak için bir çağrı değiştirmiş ve işlemini başka verdi koşmak için çağrı kaldırıldı. Diğer sonuçlar geldi, ancak hala birçok yoktu. Benim düzenli ifadeler istenilen desen eşleştirme değildi çünkü bu kez. Döndürülen kodu baktıktan sonra, benim kalıpları kırma, metin boyunca serpiştirilmiş HTML niteliklerinden kalıntıları olduğunu fark etti.
Bu etrafında bir yolu var mı? Bu hatalı biçimlendirilmiş HTML sonucudur? Ben bu konuda bir şey yapabilir miyim?