Ben metin paragrafı alıp ondan "etiketleri" listesini ayıklamak gerekir. Bu çoğu oldukça yalındır. Ancak şimdi çoğaltmaları önlemek için çıkan kelime listesi kaynaklanan bazı yardıma ihtiyacım var. Örnek: Topluluk / Topluluklar
(Ben arada PHP yazıyorum) Porter Stemmer algoritmasının uygulanması kullandım:
http://tartarus.org/~martin/PorterStemmer/php.txt
Bu bir noktaya kadar çalışır, ama "gerçek" kelimeleri dönmez. Yukarıdaki örnekte "commun" için kaynaklandığı.
(Başka bir yığın taşması parçacığı içinde önerilen) "Kartopu" denedim.
http://snowball.tartarus.org/demo.php
Benim örnekte (toplum / topluluklar) için, Kartopu "communiti" kaynaklanıyor.
Question
Bu yapacak başka kaynaklanan algoritmalar var mı? Başkasının bu sorunu çözmüştür?
My current thinking is that I could use a stemming algorithm to avoid duplicates and then pick the shortest word I encounter to be the actual word to display.