PHP ile almak için iki yaklaşım var. İlk the tidy extension kullanarak belgenizi temizlemek için bu yüzden geçerli XHTML, ve bu nedenle iyi biçimli XML, ve bu nedenle XML araçlarını kullanarak çözümlenebilir.
İkinci akım tarayıcı ayrıştırma rutinleri içine HTML5 araştırma uygulamak için çalışır html5lib çözümleyici, ve PHP serbest kullanmaktır. Bir tarayıcıda görüntülerse, html5lib ayrıştırmak olabilir.
Yaklaşım kullanılarak Eğer XPath ifadeleri kullanarak sorgulayabilir bir DOM nesnesi ile bitireceğiz. Teorik belgeler semantik yapı eksikliği olduğundan, zihniyet bir "3. p içinde 5. yayılma" den belge kesimlerinde toook isteyeceksiniz.
Daha fazla bilgi için here (self-link uyarısı).