Çince ve Rusça olarak php, arama

4 Cevap php

İngilizce, Rusça ve Çince: Sonunda, üç dilde bir web sitesi oluşturma. Ben (olacak orada?) Ben uygulama ve veritabanı UTF-8 kullanıyorsanız, giriş-çıkışı ile herhangi bir sorun olmayacağını umut

Ama en korkutucu kısmı bir arama motorudur. Yeterince serin olmalıdır. Bu tam metin olmalı, indeks, vb, vb kullanımı kaynaklanan bu Morfoloji anlamak umuyoruz gerekir

Birincisi, ben Zend_Search_Lucene baktım, ama ben fark etmiştim olarak http://framework.zend.com/issues/browse/ZF/component/10021 o Çince ile sorunları var. (

Şimdi Sfenks düşünüyorum. Bu İngilizce ve Rusça kaynaklanan destekler. Ben Çin ile ne kadar iyi olduğundan emin değilim ve beni bunun için destek eklemek için ne kadar zor olacak hiçbir fikrim yok. http://www.sphinxsearch.com/forum/view.html?id=1554 bir gümüş astar ama, Sfenks kullanıcı yaşamamış gibi, ben orada ne söylendiğini anlamak sanmıyorum.


Bu yüzden,

Herkes gibi 'dil agnostik' aramasında herhangi bir deneyimi var mı ve bunu benimle paylaşabilir, lütfen?

ve bana arama test etmek için bir şey verebilir. İngilizce bazı temel bilgilere sahip yerli Rus konuşmacı olarak kendimi hem Rusça ve İngilizce arama test edebilirsiniz, ama ben bile bu Çince parçaları pics sözler olduğu hakkında bilmiyorum. Bana dizin içine koymak için bazı Çinli dizeleri ve beklenen sonuçlar ile bazı sorgular verin!

4 Cevap

Örneğin Çin veya Japonca gibi dillerde kavram karakterleri böylece you will UTF8 ile sorunları var ve bunun yerine UTF16 kullanmalısınız, iki terminal karakter pozisyonları gerektirir.

Bunun dışında, UTF16 ve gereksinimleri (örn. kaynaklanan) destekleyen herhangi bir arama motoru iyi çalışması gerekir - Sfenks gibi, bunun için gitmek eğer, olduğunu!

Xapian docs:

Xapian Kartopu Kaynaklanan Algoritmalar kullanır. Şu anda, bu, Fince, Fransızca, Almanca, Macarca, İtalyanca, Norveççe, Portekizce, Romence, Rusça, İspanyolca, İsveççe, Türkçe ve Danca, Hollandaca, İngilizce, destekler. Lovins 'İngilizce sözcük kökü, Porter'ın orijinal İngilizce sözcük kökü, Kraaij-Pohlmann Hollandalı sözcük kökü ve umlauts normale Alman sözcük kökü bir varyasyon uygulamaları da vardır.

ya da dünya dillerinin bazı Çinli örneğin kaynaklanan kavramı geçerli değildir, ancak Hint-Avrupa grubunun birçok dil için kesinlikle anlamlıdır.

http://xapian.org/docs/stemming.html

Google Kullanıcı Arama ihtiyaçlarınız için yeterli değil mi? Tam olarak ne onu sevmiyorum?

Ben daha iyi Çin desteği sağlamak için sfenks dayalı bir açık kaynak projesi muhafaza ediyorum. Sen http://code.google.com/p/sphinx-for-chinese/ de bir göz atabilirsiniz. Ben Rusça hakkında çok şey bilmiyorum, ama Rusça kelimeler boşluk ayrılmış iseniz hiçbir sorun olacaktır. Eğer herhangi bir sorun varsa bana mesaj bırakabilirsiniz