Ben aynı zamanda yemlerin bir çift alıcı ve tek besleme kuruyorum. Kapma ve belirli bir etiketi için açıklama 'temizlik', ben bana yaşam için çıkışından 'kaldır' olamayacağını, kurşun karakterleri bulabilirsiniz.
Doing basit bir str_replace
•
(sadece böyle değil, bir li
veya ascii değer) karakteri benim için hiç bir şey yapmaz bulmak için. Ben başımı çizilmeye ve bu yüzden merak ediyorum? Bu bir kodlama sorunu, bir ASCII olmayan güvenli bir biçimde üzerinden gönderilen basit bir mermi noktası olarak görünmüyor.
Herkes bu çalıştırmak? Bir karakter tanımlamak veya kaldırmak değil mi?
İşte bazı örnek metin:
Required Qualifications:
•BSME or equivalent four year degree
•Minimum four years in blahblah industry experience
Yukarıdaki (a -
ile mermi değiştirmek isterdim, ama sadece çıkarmadan razı temizlemek isteyen bir açıklama bir örnektir.
Fikirler?
EDIT -------
Geri bildirimlere dayanarak, burada bazı ek detay. Karakter gibi isimli •
ile geliyor. Ben bu veri setinde Çıkışlardan bu özel konumu olarak bir kodlama sorunu olduğunu sanmıyorum ya HTML (detayları ile web sayfası) veya XML besleme (açıklama alanı içinde paketlenmiş html etiketleri) için.
Ben birden fazla xml xml2array
(php) kullanarak beslemeleri tüketir. Ben daha önce onunla herhangi bir sorun olmadı. Ben UTF-8
, sadece mermi ile birlikte geliyor eminim.
Yayınları bir araya getirmek için, benim kendi dizi sunucu tarafı kurmak, ve ben diğer yemlerin, ben çıktı (o zaman bir iç uygulama tüketmek gerekir) son 'inşa' xml feed gelen uygun değerleri korelasyon kez.
Birden fazla kaynak tüketen nedeni? 1 biçiminde bulunmayan veri Boşluklar.
MORE EDITING -------
Tamam bu bir kodlama sorunu gibi görünüyor, ama ben yine •
kurşunu çıkarmak için henüz. Ben utf8_encode
ancak ben aynı kopya yok garip semboller olsun kullanan, bu yüzden â[]¢
gibi bir şey olsun dönüştürmek.
Yine, daha sonra sadece inşa diziden verileri kapma bir dizi url @ XML dönüştürür xml2array(URL)
gibi bir şey, yapıyorum.