Ben çoğunlukla görüş arıyorum burada biraz açık uçlu bir soru. Ben taşımak için arıyorum beri benim alanda apt reklamlar için craigslist bazı verileri kapma duyuyorum. Amacım aynı 3 reklamlara bakarak bütün gün geçirmek kalmamak şey bir yinelenen zaman görmek için öğeleri karşılaştırmak mümkün değildir. Sorun onlar CL adlı filtreleri geçmiş olsun biraz gözüne olmasıdır.
Zaten karşılaştırmak için adres ve telefon numaralarını aramak için bazı regex var, ama bu en güvenilir değildir. Belki bütün belgeyi karşılaştırmak ve kolay bir-imsi yöntemi aşina herkes "% 80 benzer" gibi basit bir şey göstereyim mi? Ben hazırlıksız bir şey düşünemiyorum, bu yüzden ben kendi çözüm sıfırdan başlamak zorunda olacak şüpheli, ama bu stackoverflow kolektif dehasını soran değer olacağını düşündüm :)
Tercih edilen dil / yöntem python / php / perl olurdu, ama bu büyük bir çözüm ise oldukça açığım.
Güncelleme: fazlalaştı bir şey yerel DB bölgemdeki (Los Angeles) olarak apts için rss besleme kazınarak veri depolama olacağından, tercih edilen yöntem şu anda bildiğiniz her şeyi karşılaştırmak için bir yol dahil olduğunu ifade etti. Sonrası sayıları büyüdükçe bu çok uzun bir süreç haline gelebilir çünkü bu bir Showstopper biraz olabilir.