Içeriği kaybetmeden bir HTML sayfası tüm metin ayıklamak

1 Cevap php

Bir çeviri programı için ben cümleler ve bağlantıları çevirmek için bir HTML dosyasından bir% 95 doğru metni almak için çalışıyorum.

Örneğin:

<div><a href="stack">Overflow</a> <span>Texts <b>go</b> here</span></div>

Bana çevirmek için 2 sonuç vermelidir:

Overflow

Texts <b>go</b> here

Bu sorun için herhangi bir öneri veya ticari paketler?

1 Cevap

Sana ne soruyorsun tam olarak emin değilim, ama simplehtmldom bakmak. Özellikle ({[) (1]}, doğrudan bağlayabilirsiniz olamaz) bu ön sayfada hızlı bir başlangıç ​​altında sekmesinden "HTML içindekiler'i ayıklayın". Bunun üzerine tüm bu sinir bozucu etiketleri olmadan bir web sitesinin metni çıkarabilirsiniz.