PHP (MySQL gz transferi için veri) kullanarak büyük. Gz dosyasını işliyorum bu. Gz file.I başına yaklaşık 10 dakika sürer processed.After PHP bir dosya ben bitmiş olması. Gz dosyasının bir sürü var ..
html sayfaları ayrıştırmak ve benzer diğer sayfalardaki ile karşılaştırarak benzersiz veri ayıklamak .... metinleri hangi belirlemek için metin madenciliği çeşit kullanmalısınız yapabiliyor yakut veya php için bir kütüphane var ...
Ben bir cümle olumlu ya da olumsuz olup olmadığını regognize mümkün yazılım parçası yapmak istiyorum.
Ben sadece dbpedia gelen wikipedia infoboxes bu csv indirildi.