Ben yaklaşık var. 40k + html Ben gelen bilgileri ayıklamak gerekir belgeler. Ben regexpi kullanmayı tavsiye ediyorum ancak html dosyaları (tablo semantik işaretlenmiş değildir .... (en iyi dosya oluşmuş değil çünkü) + + DOMDocument XPath PHP + Tidy kullanarak bunu yapmaya çalıştım ama son derece yavaş anlamı daha az tag / her yerde) kullanılan sınıflar ve ben başlamalıdır nerede bilmiyorum tabanlı düzeni, ...
Sadece merak olmak, Python'un XPath kütüphanesini kullanarak daha (PHP / Python) hızlı regexpi kullanıyor? Python için XPath kütüphane PHP'nin meslektaşı genellikle daha hızlıdır?