Tamam, işte benim sorunum. Biz mevcut veri seti artırmak için bir şirket bir veri seti satın bakıyorsun. Bu sorunun amaçları için, bu veri seti (tek bir yerde atanan numara başka atanan sayısında herhangi bir etkiye sahip olduğu anlamına gelir) bir organik numarası ile yer alıyor diyelim. Teknik aralığı, o (10.000 üzerinden 40 yılı aşkın bir skor ile 5 yerler belki vardır kesinlikle düzgün bir dağılım değil, 0-70. Numune dayanarak değil, sonsuza 0, ama örnek gördüm setleri 1'in üzerinde bir skor ile 10 ve 1000 üzerinde bir skor) 50. Bu seti satın almak için karar vermeden önce, biz bu olabilir ne kadar faydalı görmek böylece onu taklit etmek istiyorum.
Yani, onu taklit etmek için, ben her yerde (yaklaşık 150,000 rasgele numaralar) için rastgele bir sayı üretmek düşünüyordum. Ama aynı zamanda verilerin ruhuna tutmak ve nispeten aynı (ya da en azından oldukça yakın) dağılımını tutmak istiyorum. Bunu yapmak için bir yol düşünmeye çalışıyorum bütün gün benim beyin raf oldum ve boş geldi.
Ben bir düşünce (0 ve sqrt (70) arasında) rasgele sayının karesini oldu. Ama az 1 ve daha büyük sayılar lehine olacaktır.
Ben onun gerçek dağıtım ilk kadranda ... Ben sadece bir doğrusal, hiperbolik bir dağıtım içine rasgele sayı dağılımını (açmak için nasıl boşaltılıyor ediyorum hiperbolik olması gerektiğini düşünüyorum hiperbolik ben ilk istediğinizi bile ne ise ) yerleştirin.
Herhangi bir düşünce?
Yani, bir toplamı, burada (yaklaşık) istiyorum dağıtım bulunuyor:
- 40-70:% 0.02 -% 0.05
- 10 - 40: 1 -% 0.5%
- : 1 - 10 - 20% 10%
- 0 - 1: Kalan (78.95% - 89.48%)