Instapaper yaptığım gibi, PHP ile bir metin ayrıştırıcı yazmaya çalışıyorum. Ne yapmak istiyorum; Bir web sayfasını almak ve metin-okunur modda ayrıştırmak.
Bu cURL ve şerit HTML etiketleri ile web sayfası almak basit. Ama her web sayfasının bazı ortak alanlar var; başlığı gibi, navigasyon, kenar çubuğu, altbilgi, afiş vb sadece metin modunda yazı almak ve diğer tüm parçalar hariç istiyorum. Ben "id" veya "sınıf" bilgi bilmek eğer bu parçaların dışarıda da basit. Ama ben bu süreci otomatik hale ve Instapaper gibi, herhangi bir sayfa için geçerli çalışıyorum.
Ben arasındaki tüm içeriği olsun ama başlık, kenar çubuğu veya altbilgi dışlamak ve sadece ana maddesi vücut nasıl bilmiyorum. Ben sadece ana maddesi kısmını almak için bir mantık geliştirmek zorunda.
Bana tam kodunu bulmak için önemli değil. Ayrıca ben PHP ile kendi kod yazmak için deneyebileceğiniz gibi gereksiz parçalar hariç anlamak için yararlı olacaktır. Ayrıca yararlı olacağını orada diğer dillerde herhangi bir örnek varsa.
Yardım için teşekkürler.