Bir web sayfasının html indirerek yaygın ekran kazıma olarak bilinir. Eğer belirli bir sayfada veri ayıklamak için bir program istiyorsanız bu yararlı olabilir. HTTP kaynaklarını istemek için en kolay yolu, bir alet çağırma cURL kullanmaktır. cURL tek başına bir unix aracı gibi geliyor, ama her programlama dili kullanmak için kütüphaneler vardır. Unix komut satırı türünden bu sayfayı yakalamak için:
curl http://stackoverflow.com/questions/1077970/in-any-languages-can-i-capture-a-webpageno-install-no-activex-if-i-can-plz
PHP, size aynı şeyi yapabilirsiniz:
<?php
$ch = curl_init() or die(curl_error());
curl_setopt($ch, CURLOPT_URL,"http://stackoverflow.com/questions/1077970/in-any-languages-can-i-capture-a-webpageno-install-no-activex-if-i-can-plz");
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
$data1=curl_exec($ch) or die(curl_error());
echo "<font color=black face=verdana size=3>".$data1."</font>";
echo curl_error($ch);
curl_close($ch);
?>
Şimdi bir web sitesinin tamamını kopyalayarak önce, onlar robotlar kendi sitesi örümcek izin olmadığını görmek için kendi robots.txt dosyasını kontrol etmelisiniz, ve size HTML olmadan veri almak için kullanılabilir sağlayan bir API var olup olmadığını kontrol etmek isteyebilirsiniz.