Eh, her şeyden önce size karşı konum anlamak zorundayız.
Kelime-kelime intihal nokta gülünç kolay olmalıdır. En naif yaklaşım yeterli uzunlukta kelime dizilerini almak ve korpus karşı bunları karşılaştırmak olacaktır. Yeterli uzunlukta inanılmaz düşük olabilir. Google, arama sonuçlarını karşılaştırın:
"I think" => 454,000,000
"I think this" => 329,000,000
"I think this is" => 227,000,000
"I think this is plagiarism" => 5
Bu yüzden bile bu yaklaşım ile iyi bir maç ya da iki (: en suçlular gerçekten aptal eğlenceli bir gerçektir) bulmak için çok yüksek bir şans var.
Taklit eş anlamlı kullanıldığı takdirde, kelime sıralama değişti ve böylece, belli ki biraz daha zor olur. Siz de eş depolamak ve aynı yaklaşım çalışmasını sağlayacak gramer yapısı biraz normalleştirmek için denemek gerekir. Aynı yazım için de geçerli, tabii (yani normalleşme ile eşleşen deneyin ya da eşleştirme sapmalar hesaba deneyin, bulaşıcı olmayan hastalıklar gibi diğer yanıtlar yayınlanmıştır yaklaşımları).
Ancak en büyük sorun, kavramsal intihal olduğunu. Bu gerçekten zor ve her cümle (yani yeterince karmaşık AI) semantik ayrıştırma olmadan belirgin bir çözümleri vardır.
Gerçek şu ki, sadece maçın BAZI tür bulmak gerektiğini, olsa,. Eğer korpus alakalı bir metin bulmak için tam bir eşleşme bulmak gerekmez. Nihai değerlendirme her zaman zaten bir insan tarafından yapılmalıdır, böylece bir hatalı eşleşme bulursanız tamam.
Sahteciler çoğunlukla aptal ve tembel, bu yüzden onların kopyaları da, aptal ve tembel olur. Bazıları işin içine çaba inanılmaz miktarda koymak, ancak bu eserler ilk etapta genellikle non-açık intihal, bu yüzden yani (programlı izini zor bir insan hem metinlerle intihal tanıma sorun varsa sunulan yan tarafında , bir bilgisayar büyük olasılıkla irade, çok). Tüm diğer% 80-ya-so, dilsiz yaklaşım yeterince iyi.