I need to do two things, first, find a given text which are the most used word and word sequences (limited to n). Example:
Lorem * ipsum * dolor sit amet, consectetur adipiscing elit. Nunc auctor urna urna yerde sınıflandırılmamış interdum magna ullamcorper Mattis sed. Donec ut lorem eros, id rhoncus l'dir. Praesent sodales lorem CV sapien volutpat ve accumsan lorem viverra. PROIN Lectus elit, Cursus ut feugiat ut, porta sit amet leo. Cras est l'dir, aliquet Quis lobortis sit amet, viverra non erat. Faucibus orci luctus et ultrices posuere cubilia Curae içinde Vestibulum ante ipsum primis; Tamsayı euismod scelerisque quam, et aliquet nibh dignissim at. Pellentesque ut elit neque. Etiam consequat libero volutpat de l'dir ab Mauris luctus facilisis. Pellentesque auctor, suscipit İsviçre'nin Mollis kasabasına in justo, erat justo sollicitudin ipsum, Cursus Erat in ipsum id turpis. Tincidunt hendrerit scelerisque içinde.
(Bazı kelimeler omited olmuştur Gözat, ama bu bir örnek).
I sit amet olup sit ve amet ile sonuçlanabilir istiyorum
Başlatmak için nasıl bir fikir?
İkincisi, ben belirli bir dosyada belirli bir listeden eşleşen tüm sözcükler ya da sözcük dizileri sarmak gerekir.
For this, I think to order the result by desceding length and then process each string in replace function, to avoid having sit amet wrapped if I have another sit word in my list. Is it a good way to do?!
Teşekkür ederim