Şu anda internetten bazı verileri kazıma ve xml belgeleri dönüştürülmesi duyuyorum.
- kazınmış olan belge onun meta etiketleri göre utf-8
Sorun verilerin bazı yabancı karakterler içeriyor, ben güvenilir XML / utf-8 dostu varlıkları dönüştürerek bir yol bulamıyorum, aşağıdaki hatalar Ben okuyarak bulmayı başardık nelerdir, ben ideal bir çözüm gibi olur ki her zaman çalışmak istiyorum.
Örnek 1 düzgün çalışır, örnek 2 başarısız olur. Benim araştırma örneği 1 sabit, ama bir battaniye çözüm olarak görünmüyor.
Côte d'Ivoire Côte d'Ivoire (correct)
- O - benim xpath aşağıdaki işlevini kullanarak doğru ayrıştırma ben başardı.
$w->text(charset_decode_utf_8((string)$match->a));
function charset_decode_utf_8($string) {
if(@!ereg("[\200-\237]",$string) && @!ereg("[\241-\377]",$string)) {
return $string;
}
$string = preg_replace("/([\340-\357])([\200-\277])([\200-\277])/e","'&#'.((ord('\\1')-224)*4096 + (ord('\\2')-128)*64 + (ord('\\3')-128)).';'",$string);
$string = preg_replace("/([\300-\337])([\200-\277])/e","'&#'.((ord('\\1')-192)*64+(ord('\\2')-128)).';'",$string);
return $string;
}
ÖFB Stiegl Cup ÖFB Stiegl Cup (wrong)
Ne yazık ki on - Ö - Duble varlık haline dönüştürülmüş olur. Ben uygun bir html varlığa dönüştürmek yapmak için nasıl hiçbir fikrim yok.
Ben denedim:
- benim xml belgesini oluştururken iso-8859-1 kodlama kullanarak
- utf-8 kodlaması ile htmlentitiesi kullanarak
Ben şeyler doğru kurtarmak için almaya çalışırken benim saç yırtılma olduğum gibi herhangi bir yardım büyük mutluluk duyacağız.