Bu web ayrıştırma olduğunda nasıl Google alakalı içerik bulmak nedir?
Örneğin, Google içerik ayrıştırmak için PHP yerli DOM Kütüphane kullanır, diyelim. Bir web sayfasında en alakalı içeriği bulmak için onlar hangi yöntemleri olurdu?
Düşüncelerim her paragraf alaka yüzdesini çalışmak her paragrafın uzunluğu ile tüm paragraflar için sipariş aramak ve daha sonra arama dizeleri ve sorgu parametreleri olası dan olacağını olurdu.
Biz bu URL'yi vardı diyelim:
http://domain.tld/posts/stackoverflow-dominates-the-world-wide-web.html
Şimdi bu URL'den ben HTML dosya adı yüksek alaka o halde ben bu dize sayfadaki tüm paragraflar ile karşılaştırır ne kadar yakın olduğunu görmek istiyorum olacağını çalışmak istiyorum!
Eğer bir sayfayı paylaşmak zaman bu gerçekten iyi bir örnek, Facebook paylaşım olurdu. Facebook hızla linki botlar ve vs vs görüntüleri, içerik, geri getiriyor
Ben hesaplama yöntemi çeşit elemanları çevreleyen ve meta verilere bağlı alaka% çalışmak, iyi olacağını düşünüyordum.
Içerik siteden en iyi içeriği almak için nasıl kapsar ayrıştırma, konuştuk olabilecek algoritmaları veya herhangi derinlemesine cevap en iyi uygulamalar üzerinde herhangi bir kitap / bir bilgi var mı?
Aklımda bazı fikirler:
- Düz metin uzunluğuna göre tüm paragraflar ve sırasını bulmak
- Her nasılsa bulmak genişliği ve (W + H) tarafından
div
konteyner ve düzenin yüksekliği - Benoit @ - Meta anahtar kelimeler, başlık, açıklama kontrol ve paragraflar içinde alaka kontrol
- Tüm görüntü etiketleri ve düzeni büyük tarafından ve uzak ana paragraf düğümleri uzunluğunu bulmak
- Video gibi nesne verisi, kontrol edin ve en büyük paragraf / içerik div gelen düğümlerin saymak
- Çözümlü önceki sayfalarından yapısı üzerinde çalışın
Ben bu bilgilere neden ihtiyaç nedeni:
Ben yöneticileri bize bağlantıları göndermek ve daha sonra biz onların sayfalarını listelemek bir web sitesi inşa ediyorum, ama ben webmaster bir link vermek istiyorum, sonra gidip aşağıdaki bilgileri bulmak o sayfayı sürün.
- Bir resim (varsa)
- A ' Metin en iyi ve en dilim 255 paragraf
- Bizim arama motoru için kullanılacak anahtar kelimeler, (yığın taşması tarzı)
- Meta veri Anahtar Kelimeler, Açıklama, tüm görüntüler, değişim-log (ılımlılık ve idari amaçlar için)
Siz bu bir arama motoru için değil, arama motorları içerik keşif mücadele yolu ben için gereken ne kadar aynı bağlamda olduğunu anlayabiliyorum umuyoruz.
Ben ticari sırlar için sormuyorum, ben bu kişisel bir yaklaşım ne olacağını soruyorum.