Herkes JavaScript ile oluşturulmuş bir (bu durumda, HTML tabloları) içeriği ile sayfanın HTML kaynağını kazıma için iyi bir çözüm var mı?
Bir utanç verici basit kullanarak çalışabilir bir çözüm olsa Crowbar:
<?php
function get_html($url) // $url must be urlencode(d)
{
$context = stream_context_create(array(
'http' => array('timeout' => 120) // HTTP timeout in seconds
));
$html = substr(file_get_contents('http://127.0.0.1:10000/?url=' . $url . '&delay=3000&view=browser', 0, $context), 730, -32); // substr removes HTML from the Crowbar web service, returning only the $url HTML
return $html;
}
?>
Kazayağı kullanarak avantaj tabloları render (ve erişilebilir) olacağını başsız mozilla tabanlı tarayıcı sayesinde. Düzenleme: kazayağı ile sorun sadece bir tesadüf oldu çakışan uygulaması değil, sunucu kesintilerini, olduğunu keşfetti.