Wikipedia sayfalardan tüm etiketleri şerit veya sayfa daha okunabilir hale getirmek için nasıl

4 Cevap

Ben, tüm etiketleri şerit wikipedia [göster] [gizle] maddeleri kaldırmak istediğiniz, ya da daha okunabilir formatta sayfaları yapan bazı web sitesi var.

Ben Vikipedi yazdırılabilir sürümü farkında değilim, ama bazı başka kullanımı var gibi, bu herhangi etiketleri gerekir etmeyiniz. Yani bir web sayfalarında etiketlerini kaldırmak için php / C # herhangi bir web sitesi veya Webcoder veya kod parçacıkları hakkında sadece orijinal soruya cevap lütfen.

Ben firefox bazı listesini kopyalamak zaman da o * ile <li> değiştirir gibi, bu

  • nokta çeşit gibi diğer bazı sivil okunabilir karakteri döndürmek için firefox şey ayarlamak mümkündür

  • 4 Cevap

    Sen bir HTML çözümleyici, BeautifulSoup (Python) veya Simple HTML DOM, örneğin kullanabilirsiniz. Yoksa bir XML çözümleyici kullanarak deneyebilirsiniz.

    Sen strip_tags fonksiyonuna bir göz alarak başlayabilirsiniz.

    I want to strip all tags, remove the [show][Hide] stuffs from wikipedia, or is there some website that makes pages in more readable format.

    Sen DBpedia, Wikipedia bir göz atın, ama sadece veri gerekir.

    http://dbpedia.org/About

    Ne HTMLAgilityPack hakkında

    htmlagilitypackt

    Stackoverflow mevcuttur Benzer konu

    Is there a Wikipedia API?

    Bu fonksiyonu deneyin.

    Dim pattern As String = "<(.|\n)*?>"
    Return System.Text.RegularExpressions.Regex.Replace(strHtmlString, pattern, String.Empty).Trim()