Iki belge arasındaki benzerliği hesaplamak için, ben terim frekansları içeren bir özellik vektörü oluşturmak. Ama sonra, bir sonraki adım için, ben "Cosine similarity" arasında karar veremiyorum ve "Hamming distance".
Benim soru: Eğer bu algoritmaları ile deneyiminiz var mı? Hangisi daha iyi sonuç verir?
Buna ek olarak: nasıl PHP kosinüs benzerliği kodlamak için bana söyleyebilir misiniz? Hamming mesafesi için, ben zaten kod var:
function check ($terms1, $terms2) {
$counts1 = array_count_values($terms1);
$totalScore = 0;
foreach ($terms2 as $term) {
if (isset($counts1[$term])) $totalScore += $counts1[$term];
}
return $totalScore * 500 / (count($terms1) * count($terms2));
}
Ben başka bir algoritma kullanmak istemiyorum. Ben sadece her iki arasında karar yardım istiyorum.
Ve belki birisi algoritmalar geliştirmek için nasıl bir şey söyleyebiliriz. Eğer stop sözcükleri ya da ortak kelimeleri filtrelemek eğer daha iyi sonuçlar alırsınız?
Bana yardımcı olur umarım. Şimdiden teşekkürler!