arbitary html sayfalarından yararlı veri ayıklama?

1 Cevap php

html sayfaları ayrıştırmak ve benzer diğer sayfalardaki ile karşılaştırarak benzersiz veri ayıklamak .... metinler daha olası gürültü ve repetivie hangi belirlemek için metin madenciliği çeşit kullanmalısınız tutarken, diğer yapabiliyor yakut veya php için bir kütüphane var metinler daha benzersiz ve kullanışlı ...

1 Cevap

Ben bir PHP adam, Ruby hakkında hiçbir fikrim ama ben ne istiyorum arşive önemsiz olduğunu düşünüyorum:

  • Simple HTML DOM sayfaları ayrıştırmak gibi bir şey kullanın.
  • Her sayfa için tüm DOM öğelerini karşılaştırın.
  • Farklı içeriklere sahip tüm unsurların yolu olsun, bu sizin signal unsurlar olacaktır.