Adlı varlık tanıma algoritmaları

3 Cevap php

Ben bir veritabanında metinler için yeterli etiketler bulmak için adlandırılmış varlık tanıma (NER) kullanmak istiyorum.

Ben orada bu konuda bir Wikipedia makale ve NER açıklayan diğer sayfaları çok, ben tercihen sizden bu konu hakkında bir şeyler duymak istiyorsunuz biliyorum:

  • Eğer çeşitli algoritmalar ile ne deneyimleri yaptınız?
  • Hangi algoritma öneriyoruz?
  • (PHP / Python) uygulamak için en kolay hangi algoritma nedir?
  • Nasıl algoritmalar işe? Manuel eğitim gerekli midir?

Örnek:

"Ben Barack Obama gördüm nerede Geçen yıl, ben Londra'da oldu." => Etiketler: Londra, Barack Obama

Bana yardımcı olur umarım. Şimdiden çok teşekkür ederiz!

3 Cevap

Sen bildiğim kadarıyla kod "sanayi gücü" olmamasına rağmen piton ile çalışma planlıyoruz ama olsun eğer http://www.nltk.org/ check out ile başlatmak için başladı.

http://nltk.googlecode.com/svn/trunk/doc/book/ch07.html adlı bölümüne 7,5 kontrol ama algoritmaları anlamak muhtemelen kitabın bir çok ile okumak zorunda olacak.

Ayrıca bu kontrol http://nlp.stanford.edu/software/CRF-NER.shtml. Bu java ile yapılır,

NER kolay bir konu değildir ve muhtemelen kimse çoğu kendi yanlısı / eksileri var, "bu iyi algoritma olduğunu" söyleyecektir.

Benim bir doların 0.05.

Alkış,

Bu size istediğiniz bağlıdır:

To learn about NER: başlatmak için mükemmel bir yer NLTK ile, ve ilişkili book.

To implement the best solution: Here you're going to need to look for the state of the art. Have a look at publications in TREC. A more specialised meeting is Biocreative (a good example of NER applied to a narrow field).

To implement the easiest solution: Bu durumda temelde sadece basit etiketleme yapmak ve isimler olarak etiketlenmiş kelimeleri çekmek istiyorum. Sen NLTK bir tagger kullanabilir, hatta sadece PyWordnet her kelimeyi aramak ve en yaygın Wordsense ile etiketlemek olabilir.


Çoğu algoritmaları eğitim çeşit gerekli, ve onlar etiketlemek soran gidiyoruz olanı temsil içeriğine eğitilmiş yaparken en iyi performansı.

Gerçekten NER hakkında bilmiyorum, ama bu örnekteki bakılırsa, böyle bir kelime veya bir şey harflerle için aranan bir algoritma yapabilir. Bunun için ben küçük düşünme eğer çözümü için en kolay regex öneriyoruz.

Başka bir seçenek bir veritabanı ile metinleri karşılaştırmak, wich yould maç dize ilgi Etiketler gibi önceden tanımlanmış.

benim 5 kuruş.