İlk birkaç satır olmadan wget ile HTML ve Görüntüler indirin

2 Cevap php

Ben belirli belgeleri ve HTML bağlantılı görüntüleri indirmek için-p seçeneği ile wget kullanmak çalışılıyor.

Sorun HTML barındıran site HTML önceki bazı non-html bilgi var, bir. Bu wget HTML olarak belgeyi yorumlamak değil ve görüntüler için aramaz neden oluyor.

Is there a way to have wget görüntüleri arıyor ilk X hatları ve / veya kuvvet şerit?

Example URL:

First Lines of Content:

<DOCUMENT>
<TYPE>S-4
<SEQUENCE>1
<FILENAME>ds4.htm
<DESCRIPTION>FORM S-4
<TEXT>
<HTML><HEAD>
<TITLE>Form S-4</TITLE>

Last Lines of Content:

</BODY></HTML>
</TEXT>
</DOCUMENT>

PHP EDIT: Çözümleri kesinlikle kabul edilir.

2 Cevap

Wget aslında img etiketleri tespit edilir. Sorun web sitesi soru olan bir robots.txt O / Archives izin vermiyor. Talep ve wget onur ek belge almak değil.

Ancak, ilgili belgeleri almak için wget giriş olarak indirilen belge kullanabilirsiniz:

wget -l 1 --base=url - force-html-i file

PHP, sen X çizgileri şerit için bu işlevi kullanabilirsiniz:

function strip_toplines($string,$lines){
    $string = explode(PHP_EOL,$string);
    foreach($string as $line_num => $line){
        if($line_num>($lines - 1)){
            $output .= $line . PHP_EOL;
        }
    }
    return trim($output);
}

ve daha sonra bu:

strip_toplines(file_get_contents($url),6);