PHP'nin DOMElement kontrollerini kullanarak bir üçüncü taraf web sayfasını ayrıştırma. Ben tarayıcı ile bir web sayfasını kullanın ve kaynağını görmek, bu temiz, ama ben DOMElement-> nodeValue HTML etiketleri yok, ve birkaç newlines ve bu karakter  vardır parametre ile bazı düğümler eriştiğinizde. this answer göre, bu bir kodlama sorunu olduğu zaman gösterir karakterdir.
Ben de kullanarak bu gobbly-Gook olsun:
- simplexml_import_dom ($ node) -> asXML ();
- $ Doc-> SaveXML ($ düğüm);
Benim soru Ben sadece DOMElement içindeki temiz HTML kodunu alabilirsiniz nasıl?
İşte temiz HTML kodu:
<b>Author:</b> AUTHOR<br>
<b>ISBN:</b> 9780684857220 <br>
<b>Edition/Copyright:</b> 7<br>
<b>Publisher:</b> J+M<br>
<b>Published Date:</b> 1989<br>
İşte nodeValue verir budur:
Â
Author:Â AUTHOR ISBN:Â 9780684857220 Edition/Copyright:Â 7 Publisher:Â J+M Published Date:Â
1989