Ben başka bir yerde ben hiçbir kontrole sahip bazı veri toplama bir kazıyıcı var. Kaynak veriler ilginç Unicode karakterleri her türlü yapar ama o kadar, oldukça yararsızdır biçime dönüştürür
\u00e4
Bir küçük 'bir' çift nokta ile (sans bence çift tırnak olması gerekiyordu) * için. Tabii bu düz metin olarak benim HTML işlenen alır.
Beni elle her bir dize dizisini çatırdayan ve kazıma sırasında onları yerine içermeyen düzgün karakterler içine unicode kaynak dönüştürmek için herhangi bir gerçekçi bir yolu var mı?
* Buradan dışarı tükürür json bir örnek:
({"content":{"pagelet_tab_content":"<div class=\"post_user\">Latest post by <span>D\u00e4vid<\/span><\/div>\n})