Question

PHP'nin DOMElement kontrollerini kullanarak bir üçüncü taraf web sayfasını ayrıştırma. Ben tarayıcı ile bir web sayfasını kullanın ve kaynağını görmek, bu temiz, ama ben DOMElement-> nodeValue HTML etiketleri yok, ve birkaç newlines ve bu karakter Â vardır parametre ile bazı düğümler eriştiğinizde. this answer göre, bu bir kodlama sorunu olduğu zaman gösterir karakterdir.

Ben de kullanarak bu gobbly-Gook olsun:

simplexml_import_dom ($ node) -> asXML ();
$ Doc-> SaveXML ($ düğüm);

Benim soru Ben sadece DOMElement içindeki temiz HTML kodunu alabilirsiniz nasıl?

İşte temiz HTML kodu:

<b>Author:</b> AUTHOR<br>
            <b>ISBN:</b> 9780684857220 <br>
            <b>Edition/Copyright:</b> 7<br>
            <b>Publisher:</b> J+M<br>
            <b>Published Date:</b>  1989<br>

İşte nodeValue verir budur:

                    Â 
                    Author:Â AUTHOR      ISBN:Â 9780684857220 Edition/Copyright:Â 7     Publisher:Â J+M       Published Date:Â 
                    1989

PHP'nin DomElement> nodeValue gobbly-Gook var

0 Cevap

etiketler