java - "Unseriousness" kontrol için uygulama / Script

Kullanıcıların hemen her şey satın almak / satmak olabilecek bir seri ilanlar sitesi var ...

Para şirket sürü maliyeti Benim sorun, vb zaman TÜM seri ilanlar web sitesinde yayınlanan başlandı önce fiziksel bir kişi (işçi) tarafından gözden geçirilmesi gerektiğidir.

Yeni bir ilan Enty oluşturduğunuzda Yani, "iki saat Withing postedn reklamınız sonra bizim politikasına karşı gözden geçirilecek ve" gibi bir mesaj alıyorum.

Küfürler, ayrımcılık, vs vs unseriousness varsa Yani bir kişinin aslında kontrol etmelisiniz ..

Benim soru:

Do you think it is possible to create a php code for checking all these things instead of hiring people to do it? For instance, how have Ebay solved this?

Kelimeleri kara listeye kolay ve aynı zamanda dublicate girişleri kontrol, ama ne ayrımcılık ve "unseriousness"?

2 Cevap

Ben tam% 100 otomatikleştirmek sanmıyorum - ama hakemlerin işi kolay yapabilirsiniz.

O assigns a "rating" gizli bir etmek, bunun için bir uygulama oluşturabilirsiniz.

Skoru sınıflandırılmış görünür, yüksek daha ciddi. "Mümkün kural ihlali" (kötü kelime listesi, çok kısa mesaj, kötü dilbilgisi, kötü biçimlendirme, kötü yazarak) başına size puan düşürmek.

Daha sonra bir "çok düşük puanı otomatik olarak reddedilir" uygulamak.

Önce "daha yüksek puanlama öğeler" (- sadece daha sonra tarih gönderdi, çok dikkate nedenle düşük puan mesajlar değerlendirilecek emin almak yok) Oranı yorumcular bir sistem sunabilir. Bu onların verimliliğini artıracaktır.

Rencide kurallar ("bu yazı muhtemelen kötü dilbilgisi vardır", ..., kara listeye sözcükleri vurgulamak) yorumcular göster. Belki onlara kötü sözler (ve bir penaltı değiştirici, örneğin -0.5) eklemenize olanak sağlar.

Ama profesyonel siteler bunu nasıl bakmak: Her yazının altında "bayrak" butonu var - sahip topluluk yardım edeceğim. Onlar bir yazı bayrak, bir moderatör kontrol etmek için gider.

Benim önerim: elle mesajları kontrol ortadan. Eğer içeriği düzenleyen sonra, web sitesindeki tüm içerik için sorumlu olur. Ilımlılık herhangi bir form olmadan mesajlarını kabul sorumluluk büyük bir ortadan kaldıracaktır. Kalitesini korumak ve undesireable içerik önlemek amacıyla olsa da, diğer kullanıcılar için yeteneği ekleyebilirsiniz elle yorumlayan kalmadan, işaretlendi içeriği yalnızca alt kümesini yorumlayan sağlayacak uygunsuz olarak "bayrak" içerik için tüm içerik.

Şimdi, gerçek soruyu cevaplamak için, ... sen makine öğrenme teknikleri kullanılarak filtreleme otomatik hale getirebilirsiniz. Ancak, bu otomatik filtre% 100 doğru olmasını beklemeyin. Siz özellikleri ve farklı ML algoritmaları farklı deneme olacak, ama ben% 90 aralığında bir şey için amaç istiyorum, ve en azından bir şey% 80 veya daha doğru bekliyoruz. Eğer çok düşük yalancı pozitiflik oranı yoksa, meşru mesajları engelleme ve kullanıcıları bayrak uygunsuz içeriğe genellikle yeterlidir izin için insanları rahatsız edecektir çünkü söyledi, ben bile, bu rahatsız olmaz. Ayrıca, kullanıcıların birbirlerinin mesajları değerlendirmek için bir yol sağlayabilir. Crowdsourcing bu tür bir şey için oldukça etkili bir tekniktir.

Ayrıca, ben son bir şey eklemek gerekir ... Eğer hala elle makine öğrenme algoritması eğitim için yeterince büyük bir veri kümesi etiketli olması için puan mesajların çok sayıda almak istiyorsanız insanlar el mesajları gözden geçirmek veya sahip olmak istiyorsanız, Eğer gerçekten ucuza, gerçekten insanların çok sayıda kaldıraç sağlayan, Mechanical Turk ilginizi çekebilir.

"Unseriousness" kontrol için uygulama / Script

2 Cevap

etiketler