php - Nasıl yazım hataları için Levenshtein mesafe ve hesabınızı kullanarak benzer dizeleri için bir eşik oluşturabilir?

Son zamanlarda biz yinelenen kullanıcı bizim veritabanında verileri sunulan keşfetti işte ilginç bir sorunla karşılaştı. Bu verilerin çoğu arasındaki Levenshtein mesafe sadece söz konusu 2 dizeleri arasındaki fark olduğunu fark etti. Yani biz sadece diğer içine bir dizeden karakterleri eklerseniz o zaman biz aynı dize ile sona olduğunu gösterir, ve birçok şey için bu bizi yinelenen öğeler için hesap için en iyi yol gibi görünüyor.

Biz de yazım hatalarını hesaba istiyorum. Peki biz ne sıklıkta insanların kelime başına çevrimiçi yazım hatası yapabilirim ortalama düşünmeye başladım, ve bu mesafe içinde bu verileri kullanmayı deneyin. Biz böyle bir istatistik bulamadım.

Veri maç için eşik bu tür oluştururken yazım hatalarını hesaba için herhangi bir yolu var mı?

Ben açıklamak eğer bana bildirin!

Nasıl yazım hataları için Levenshtein mesafe ve hesabınızı kullanarak benzer dizeleri için bir eşik oluşturabilir?

0 Cevap

etiketler