Ben uluslararası matematik grubu desteklemek için tasarlanmış bir forum çalıştırmak. Geçenlerde uluslararası karakterlerin daha iyi destek için unicode için açık ettik. Bu dönüşüm hata ayıklama, ben değil tüm unicode karakter (ilgili web sitesi http://www.w3.org/TR/unicode-xml/ olarak görünür) geçerli XHTML olarak kabul edilir olduğunu keşfetti ettik. Forum yazılımı tarayıcıya mesajları sunmadan önce geçer adımlardan biri, bir XHTML doğrulama / sanitisation adımdır. O aşamada XHTML sevmiyor herhangi unicode karakterleri kaldırmak gerektiğini makul bir fikir gibi görünüyor.
Yani benim soru:
PHP bunu yapmanın standart bir (veya iyi) bir yolu var mı?
(Forum arada, PHP ile yazılmış.)
Ben emniyetli (o da en iyi, ben emin unicode? Ile düzgün çalıştığından emin olmak için ekstra bir şey yapmanıza gerek yok) basit bir str_replace
olacağını tahmin ama gitmek zorunda beni içerecektir XHTML DTD (veya yukarıda başvurulan W3 sayfa) dikkatli str_replace
ve search bölümünde listelenecek ne karakterleri anlamaya, bu yüzden en iyi yolu ise, birisi zaten yapmış Bu yüzden, o, err, kopya çalabilir?
(Bu arada, soruna neden karakter U +000 C 'formfeed' () W3 sayfasına göre geçerli HTML ama geçersiz XHTML olan oldu!)