Muhtemelen etki maçlarını alacak bir sezgisel geliştirmek gerekir. Ben bunu yapacağını yolu ilk metnin bir külliyatını buluyorum. Örneğin, Vikipedi'yi indirebilirsiniz.
Yanındaki külliyat almak ve her iki komşu kelime birleştirmek. Örneğin, eğer cümle:
quick brown fox jumps over the lazy dog
Sen bir liste oluşturun:
quickbrown
brownfox
foxjumps
jumpsover
overthe
thelazy
lazydog
Bunların her biri bir sayımını olurdu. Eğer külliyat ayrıştırmak gibi, her iki kelime frekans çiftleri takip edeceğiz. Ayrıca, her çifti için, orijinal iki kelime ne olduğunu sıralamak gerekir.
O Sıralama bu frekans ile liste ve bu kelimeleri dayalı etki eşleşmeleri bulmaya çalışır.
Son olarak, kayıtlı olmayan üst iki kelime öbekleri için bir etki alanı denetimi yapmak!
Ben DomainTool gibi siteler en yüksek rütbeli kelimelerin bir listesini almak düşünüyorum. Daha sonra ilk olarak bu kelimeleri ayrıştırmak için deneyin. Amacına bağlı olarak, iş yapmak için mturk kullanarak düşünebilirsiniz. Farklı insanlar farklı aynı kelimeleri ayrıştırmak, ve kelimeleri nasıl ortak orantılı bunu olmayabilir.