My Problem
Ben alan kişilerin tümü için Washington adreslerini bulmak için US House of Representatives Site üzerine bireysel bağlantıları taramasını çalışılıyor. Sorun, Washington adresin formatı zaman zaman değişir olmasıdır. Bazen zor maç yapmadan mermi, borular, yeni hatlar ve kırılmaya etiketleri vardır.
Ben büyük ölçüde benzer adreslerini almak için birçok sayfalarını taramaya çalışılıyor:
ignore peculiar whitespace. It's merely to show string-part similarities
1433 Longworth House Office Building Washington, D.C. 20515 332 Cannon HOB Washington DC 20515 1641 LONGWORTH HOUSE OFFICE BUILDING WASHINGTON, DC 20515 1238 Cannon H.O.B. (line return) Washington, DC 20515 8293 Longworth House Office Building • Washington DC • 20515 8293 Longworth House Office Building | Washington DC | 20515
Bunların her biri ayrı ayrı, diğer metin ve html etiketleri ton çevrili geri gelecektir. Adresleri bile
içerebilir veya
adresin kendisi içinde.
Ne yapmak istiyorum kaynak dizeden ilk maçı yakalamak, ve bir değişkenin değeri olarak ayarlanır. Benim anlayış, bu iyi bir düzenli ifade ile yaklaştı olacaktır.
Update:
Bu gün görünebilir hangi çeşitli yolları hakkında daha fazla öğrendikten sonra, bir daha az sıkı bir ifadesi iyi olacağına karar verdik. Bu adresler mermi, borular, ve yeni satır ile gösteren edilmiştir. Belki aşağıdaki iletişim bir ifade iyi olurdu:
[numbers][anything]["washington"][anything][DC|D.C.][anything][five numbers]
Görünüşe göre bu yol çok gevşek. Ben bir şey bir kaç karekter izin vererek sadece ilgileniyorum zaman anything blokları, paragraflarda getiriyorlardı.
Şimdiye kadar (bu çoğu sadece bir kaçıdır) aşağıda bulunan eşleşen adresler de başarısız oldum