html sayfaları ayrıştırmak ve benzer diğer sayfalardaki ile karşılaştırarak benzersiz veri ayıklamak .... metinler daha olası gürültü ve repetivie hangi belirlemek için metin madenciliği çeşit kullanmalısınız tutarken, diğer yapabiliyor yakut veya php için bir kütüphane var metinler daha benzersiz ve kullanışlı ...