Ben PHP ve Regexes kullanarak bir web sayfası bir fiyat kazımak için çalışıyorum. Fiyat formatında £ 123,12 veya 123,12 $ (yani, kilo ya da dolar) olacak.
Ben libcurl kullanarak içeriği kadar yükleme ediyorum. Çıkışı daha sonra preg_match_all
içine gidiyor. Yani bu gibi biraz görünüyor:
$contents = curl_exec($curl);
preg_match_all('/(?:\$|£)[0-9]+(?:\.[0-9]{2})?/', $contents, $matches);
Şimdiye kadar bu kadar basit. Sorun PHP hiç bir şey eşleşen değil, bir - sayfada fiyat vardır bile. PHP bu gibi görünmüyor - Ben orada 'TL' karakteri ile bir sorun olmaktan aşağı daralmış ettik.
Ben bu bir charset sorun olabileceğini düşünüyorum. Ama ne olursa olsun, ben bu maç için PHP almak gibi olamaz! Herkes herhangi bir fikir var mı?
(Edit: Ben aynı regex ve sayfa içeriği kullanarak Regex Test Tool kullanmayı deneyin eğer dikkat etmelisiniz, iyi çalışıyor)