Php HTML Kazıma [çoğaltmak]

7 Cevap php

Bu soru burada zaten bir cevabı var:

7 Cevap

Eğer sayfasından HTML kazınır sonra ben PHP Simple HTML DOM Parser tavsiye ederim. Bu geçersiz HTML destekler ve HTML öğeleri işlemek için çok kolay bir yol sağlar.

Ben de 'Basit HTML DOM Parser.' Tavsiye ederim Daha sonra evde bulacaksınız jQuery veya JavaScript selektörlü özellikle tanıdık iyi bir seçenektir.

I have even blogged about it in the past.

Eğer kazıma konum sayfa geçerli X (HT) ML ise, herhangi bir PHP's built-in XML parsers yapacağız.

Ben kazıma için PHP kitaplıkları ile çok başarılı olmadı. Eğer olsa maceracı iseniz, deneyebileceğiniz simplehtmldom. Ben HTML hem excellent ayrıştırıcılar olan, Hpricot Ruby veya Beautiful Soup Python için tavsiye ederim.

Ben bu kadar üst düzey bir çözüm değil ki, htmlSQL ile çalışan bazı eğlendim, ama çalışmak için gerçekten basit.

Ben şahsen cURL + regexpi kullanımı olsa HTML kazıma için PHP kullanarak, cURL + regexpi veya cURL + bazı DOM ayrıştırıcılarını tavsiye ederim. Eğer regexp derin bir tadı varsa, bazen aslında daha doğru bulunuyor.

Ben Simple Html DOM Parser yanı sıra yukarıda bahsedilen ile sonuçları ile çok iyi yaşadım. Ve sonra tidy Extension for PHP yanı sıra gerçekten çok iyi çalışıyor ki var.

Benim ana 1and1 üzerinde kıvrılmasını kullanmak zorunda kaldı.

http://www.quickscrape.com/ Ben basit DOM sınıfını kullanarak geldi budur!