/ Artığı ayrıştırmak nasıl / Ruby veya PHP veya Java kullanarak bir ASP.net web sitesi İçerik ayıklamak?

5 Cevap java

Ben Ruby veya PHP veya Java kullanarak bir ASP.net web sitesinin içeriği kazımak için bir hobi proje yapıyorum. Örneğin eğer web url "www.myaspnet.com / home.aspx". i home.aspx gelen unicode metin içeriğini ayıklamak ve bir not defteri yapıştırmak istiyorum. Yukarıda belirtilen dillerden herhangi birinde mevcut kütüphaneler var mı? . Herkes uygun kaynaklar sağlayarak bu ilgili bana yardımcı olabilir.

Teşekkürler!

5 Cevap

Eğer sadece içerik kazımak ister gibi geliyor.

Sen, "notepad yapıştırın" değil, sadece (daha sonra not defteri açabilir, ya da bir metin dosyası okumak başka bir program), basit bir metin dosyasına yazmak.

Genel olarak:

$content = file_get_contents('http://example.com/url.asp');
//do some stuff to extract what you want and format it.  Probably using simplexml, or regular expressions to do the extraction
$fp = fopen('some_file.txt');
fwrite($fp,$stuff);
fclose($fp);

Ve bitirdiniz.

Eğer çok fazla zorluklar olmadan yapmak mümkün olmalıdır PHP kullanıyorsanız, size curl içerik ve simplexml almak için & kullanabilirsiniz dom html içine gezinmek için.

Ayrıca içeriği kolayca ayıklamak için xpath bakmak isteyebilirsiniz.

Eğer ekran kazıma çeşit ihtiyaç ve Ruby lehine ise, o zaman scRubyt kontrol edebilirsiniz ya da Ryan Bates tarafından döküm this ekran izleyebilirsiniz.

Recursively bu ziyaret ve aynı görevi yerine - Java ile sayfada sunulan bağlantıların her izleyin, bir sayfa metin ayıklamak için HttpUnit kullanarak basit bir programı yazabilirsiniz.

Bu oldukça önemsiz bir egzersiz olmalıdır, dış bağlantılar Endekslemede ile gitmek istiyorum ne kadar bağlı olsa bazı dikkatle tedavi edilmesi gerekir.

Bu screencast temelde Ruby adım adım bir web sitesi hurda nasıl gösterir. Bu çıkış raylar uygulama kullanır, sadece Ruby kütüphane odaklanmak kolay olmalıdır (ScrAPI).