Update: Şimdi php_ssdeep for the ssdeep C API to facilitate fuzzy hashing ve hash comparisons in PHP natively. More information can be found over at my blog strong> adında bir PHP uzantısı yazdım. Ben bu insanlar için yararlı olduğunu umuyoruz.
Veritabanında tekrarını önlemek için önce çeşitli dosya formatlarını saklamak (dosyaların potansiyel 1000) ve biz bir metin belgesi yüklendi olup olmadığını kontrol edebilmek için gereken bir Linux kutusunda PHP bir özel belge yönetimi uygulaması yazıyorum dahil am .
Bir kullanıcı yeni bir dosya yükler Esasen biz ya çoğaltır veya benzer içeriğe sahip dosyaların bir listesini sunmak için muktedir istiyorum. Bu daha sonra onları önceden varolan belgelerden birini seçebilir veya kendi yükleyerek devam için izin verecek.
Benzer belgeleri benzer sentances ve belki de anahtar kelimeler dinamik olarak oluşturulmuş bir liste içeriğine bakarak belirlenecektir. Biz sonra onları çiftleri bulmak yardımcı olmak için kullanıcıya bir yüzdesi maç görüntüleyebilirsiniz.
Bu işlem için herhangi bir paket ve geçmişte yapmış olabilirsiniz nasıl herhangi bir fikir tavsiye edebilir misiniz?
Bence direkt yinelenen tüm metin içeriği ve elde yapılabilir
- Boşluk sıyırma
- Noktalama Çıkarma
- Alt veya üst harf dönüştür
sonra herhangi bir yeni belgeleri ile karşılaştırmak için bir MD5 hash oluştururlar. Üzerinden bu öğeler sıyırma kullanıcı, örneğin fazladan paragraf sonları eklemek için bir belge düzenlerse bulunamadı olmamak dupes önlemeye yardımcı olmalıdır. Herhangi bir düşünce?
Bu süreç aynı zamvea potansiyel bir gece iş olarak çalıştırabilir ve hesaplama gereksinimi gerçek zamanlı olarak çalıştırmak için çok büyük ise onlar sonraki giriş yaptığınızda herhangi çiftleri kullanıcıya bildirmek olabilir. Realtime ancak tercih olacaktır.