首页 > 数据分析 > 游戏数据分析:R语言、二项分布在留存测试中的应用
2016
02-23

游戏数据分析:R语言、二项分布在留存测试中的应用

作者:jo [66TEAM],未经允许不得转载。

题目:游戏期望回头率为n%,每次采买量为m,求m对应n%的期望下,实际的回头区间为多少?95%置信区间。

思路:把问题看成单用户回头得概率为n%的二项分布(此处可自行百度二项分布和伯努利实验),然后通过R语言使用二项分布函数计算;

以50%回头期望为例:

首先,绘制各个m值对应的n%的密度图,对整体分布观测m值分别取(200,500,1000,1500,2000,2500,3000,3500 )
#n%回头对应人数
p=0.5 #回头期望
a1<-rbinom(10000,200,p)/200
a2<-rbinom(10000,500,p)/500
a3<-rbinom(10000,1000,p)/1000
a4<-rbinom(10000,1500,p)/1500
a5<-rbinom(10000,2000,p)/2000
a6<-rbinom(10000,2500,p)/2500
a7<-rbinom(10000,3000,p)/3000
a8<-rbinom(10000,3500,p)/3500
a<-data.frame(a1=a1,a2=a2,a3=a3,a4=a4,a5=a5,a6=a6,a7=a7,a8=a8)
aa<-stack(a)
attach(aa)
aa.f<-factor(aa$ind,levels=c(200,500,1000,1500,2000,2500,3000,3500),labels=c(‘200′,’500′,’1000′,’1500′,’2000′,’2500′,’3000′,’3500’))
library(sm)
opar=par(no.readonly=T)
sm.density.compare(values,ind,xlab=”Retention”)
colfill<-c(2:(1+length(levels(aa.f))))
legend(locator(1),levels(aa.f),fill=colfill)
title(main=”用户量对应50%回头期望分布”)
detach(aa)

结果:
游戏数据分析:R语言、二项分布在留存测试中的应用 - 非常6游戏团队(66team) - 1

然后,计算95%置信区间对应的上下区间
#95%置信区间回头波动
x<-c(0.975,0.025)
y<-c(200,500,1000,1500,2000,2500,3000,3500)
a<-matrix(nrow=2,ncol=8)
for (i in 1:2){
for (j in 1:length(y)){
a[i,j]<-qbinom(x[i],y[j],0.5)/y[j]
}
}
a

结果:
游戏数据分析:R语言、二项分布在留存测试中的应用 - 非常6游戏团队(66team) - 2

反复计算结果

结论:
游戏数据分析:R语言、二项分布在留存测试中的应用 - 非常6游戏团队(66team) - 3

1、以回头期望50%为例,观测到1000~1500样本量为一个分界点;在考虑成本情况下,每日每样本采买1000~1500量为最优;上下有2.5个点的波动。

2、正文分别附有95%和90%置信区间时候对应的波动区间(波动区间为上下区间,如95%置信区间,200量对应回头期望55%时候,浮动区间7%,表示48%~62%。

最后编辑:
作者:jo
先后在百度、搜狐畅游担任数据分析师,现就职于某创业团队,负责BI工作

留下一个回复

你的email不会被公开。