(Harici XSLT dosyaları OLMADAN) aşağıdakileri yapmak için (XPath ve PHP kullanarak) bir yolu var mı?
- Tüm tabloları ve bunların içeriğini çıkarın
- İlk h1 etiketinden sonra her şeyi kaldır
- (Kendi iç HTML (bağlantılar, listeler, vb) DAHİL) sadece paragraflar tutun
Ben bir XSLT cevap here aldı, ama harici dosyaları gerekmez XPATH sorgular arıyorum.
Şu anda, ben üzerinden bir SimpleXMLElement yüklenen söz HTML var:
$doc = @DOMDocument::loadHTML($xml);
$data = simplexml_import_dom($doc);
Şimdi yardıma ihtiyacım var:
$data = $data->xpath('??????');
Boşuna birkaç gün bu biriyle çalışıyor. Gerçekten yardım ederiz.
Edit: I don't particularly care what's inside the paragraphs, as I can use strip_tags to eliminate what I don't want. All I need to do is to isolate the paragraphs from the rest of the source. I suppose a more specific, accurate requirement would be this:
Return only paragraphs (and their html contents) that aren't contained in tables, and only before the first h1 tag
Edit 2:
I think I've gotten most of it with this:
$query = $xpath->query('//p[not(ancestor::table) and not(preceding::h2)]');
Tek sorun, iç HTML kaybıdır.