İki adımlar olarak özetlenmesi:
- Tidy "İyi XHTML" "free HTML" dönüştürmek için kullanın.
- XML Parser SAX API XML olarak XHTML ayrıştırmak için kullanın.
Tidy (!), XHTML içine "serbest HTML" (veya ne zaman size "sözde XHTML güvenmiyorum") dönüştürmek için ilk olarak kullanın. Bkz cleanRepair yöntemi. Bu daha fazla zaman gerekiyor, ama büyük dosyalar ile çalışan (!) ... Set some minutes as maximum execution time çok büyük eğer.
(Büyük dosyalar ile çalışmak için) bir başka seçenek işaretli veya XHTML dönüştürülmüştür sonra XHTML dosyaları önbelleğe etmektir. Derli toplu repairfile yöntemine bakın.
Bir "güvenilir XHTML" ile, use SAX ... PHP ile SAX nasıl kullanılır?
PHP LibXML (xmlsoft.org at LibXML2 bakınız) tarafından uygulanan ve onun arayüzü {olduğunu düşünecek olursak, bir SAX standard API ile XML Ayrıştırma [(4)]}, bu yakın SAX standard API etmektir.
Başka bir arayüz (a PHP iterator yerine geleneksel SAX arayüzü) ile "LibXML2 Sax", kullanmak için başka bir şekilde kullanmak için XMLReader. Bkz this explanation about "XMLReader use SAX".
Evet, terimleri "SAX" veya "SAX API" PHP el kitabında ifade değil (!). Bkz this old but good introduction.