您的位置:首页 > 其它

实际中常用的一个随机数产生器(分类别概率随机)

2012-09-05 12:17 260 查看
原创作品,允许转载,转载时请务必以超链接形式标明文章
原始出处 、作者信息和本声明。否则将追究法律责任。/article/4373825.html

这是刚做完的一小段代码,经测试已经无误,呵呵,这里share给大家看看,有朋友觉得有用,可以拿去用。
这个程序解决的问题如下:
已知一件事物有几种状态,每种状态出现的概率不一样,要求做一个随机数产生器,返回状态值,要求状态值出现的规律,符合输入的概率。
这是小弟上午问我的问题,我们正在做一个工业测试模型,实际的例子是,根据实际情况,某种设备返回的状态概率符合下表:
设备状态百分比
112%
240%
340%
47%
51%
要求写段代码,模拟设备的上述行为。
我下午上班想了一下,花了半个小时为他写了一个随机数产生器,经测试,0bug,呵呵。他现在正在用。

Code:

#define CTonyRandomArea_TOKEN_MAX 100 //最大类型数

#define CTonyRandomArea_TOKEN_AREA_MAX 10000 //类型数组单元数,精确到小数点后两位

//输入最大100个元素的数组,每个数组表示每类占有的百分比,内部自带百分比调整。

//即如果外部输入的数字之和不是整数100,内部会根据百分比,自动调整其比例,使总和=100.0

//然后内部建立10000个单元的类型数组,根据传入的每种类型的比例,在类型数组中批量填充对应的类型值

//总之,类型数组中每种类型的数量,占据的比例正好是输入的百分比

//最后,在0~10000中取随机,然后在对应的类型数组单元中取类型值,即为返回的类型

class CTonyRandomArea

{
public:
CTonyRandomArea(double* pTokenPercentArray,char cTokenCount)

{
m_nTokenCount=cTokenCount;
if(CTonyRandomArea_TOKEN_MAX<m_nTokenCount)

m_nTokenCount=CTonyRandomArea_TOKEN_MAX;

int i=0;
for(i=0;i<m_nTokenCount;i++)

{
m_dTokenPercentArray[i]=*(pTokenPercentArray+i);

}
//动态调整内部的值

//有时候试验人员,测得几个状态出现的数字,可能懒得再计算成百分比

//程序帮忙自动计算

double dNumberCount=0;

for(i=0;i<m_nTokenCount;i++)

{
dNumberCount+=m_dTokenPercentArray[i];

}
if(100.0!=dNumberCount)

{
for(i=0;i<m_nTokenCount;i++)

{
m_dTokenPercentArray[i]/=dNumberCount;

m_dTokenPercentArray[i]*=100;

}
}
//以小数点后两位精度,开始计算在10000个总单元中,每种类型对应的数量。

for(i=0;i<m_nTokenCount;i++)

{
m_sTokenPercentArray[i]=(short)(m_dTokenPercentArray[i]*100);

}

//按比例填充类型数组

int j=0;

int nFillMin=0;

int nFillMax=0;

for(i=0;i<m_nTokenCount;i++)

{
m_cTokenPercentArrayAreaUp[i]=-1;
}

for(i=0;i<m_nTokenCount;i++)

{
nFillMax=nFillMin+m_sTokenPercentArray[i];

for(j=nFillMin;j<nFillMax;j++)

{
m_cTokenPercentArrayAreaUp[j]=i;
}
nFillMin=nFillMax;
}
// m_cTokenPercentArrayAreaUp[CTonyRandomArea_TOKEN_AREA_MAX-1]=i-1;

}
~CTonyRandomArea(){}
void PrintfInfo(void)

{
int i=0;

double dNumberCount=0;

for(i=0;i<m_nTokenCount;i++)

{
dNumberCount+=m_dTokenPercentArray[i];

printf("%d = %f\n",i,m_dTokenPercentArray[i]);

}
printf("All = %f\n",dNumberCount);

//打印10000个单元的类型分布,看看排得对不对

//这段打印起来太长,一般隐掉,需要了再打印

// int nOutMax=400;

// int nInMax=25; //二者相乘为10000

// int j=0;
// for(i=0;i<nOutMax;i++)

// {
// printf("%05d - ",i*nInMax);

// for(j=0;j<nInMax;j++)

// {

// printf("%d ",m_cTokenPercentArrayAreaUp[i*nInMax+j]);

// }

// printf("\n");

// }

}

//取类型数组对应单元的值
char GetType(int nTypeIndex) //输入参数0~10000

{
if(10000<=nTypeIndex) nTypeIndex=9999;

if(0>nTypeIndex) nTypeIndex=0;

return m_cTokenPercentArrayAreaUp[nTypeIndex];

}
//真实的工作函数,利用输入的概率来产生随机type

char GetRandomType(void)

{
return GetType(GetRandomBetween(0,10000));

}
private:
double m_dTokenPercentArray[CTonyRandomArea_TOKEN_MAX]; //比例数组

short m_sTokenPercentArray[CTonyRandomArea_TOKEN_MAX]; //比例数组,短整型,1~10000,相当于精确到小数点后两位

char m_nTokenCount;

char m_cTokenPercentArrayAreaUp[CTonyRandomArea_TOKEN_AREA_MAX]; //类型数组

};
//这是测试代码
void TestCTonyRandomArea(void)

{
double dTokenPercentArray[100];

dTokenPercentArray[0]=12.0;
dTokenPercentArray[1]=40.0;
dTokenPercentArray[2]=40.0;
dTokenPercentArray[3]=7.0;
dTokenPercentArray[4]=1.0;

CTonyRandomArea Area1(dTokenPercentArray,5);
Area1.PrintfInfo();

int i=0;
for(i=0;i<20;i++)

{
printf("RandType = %d\n",Area1.GetRandomType());

}
}

其实这个原理很简单:
1、我先从外部导入一个比例列表,在100以内的数组单元,每个单元里面放置一个double值,相当于对应类别的比例。这样,我预设最大有100种状态,具体本次试验有多少种状态,即100个状态比例数组多少个单元是有效的,看构造函数的第二个参数,就是这个参数输入的。
2、这里面我做了点人性化考虑,因为很多时候,我们测试的设备状态是直接的采样值,即每种状态出现了多少次,懒得计算成百分比,因此,我内部自动帮他重新计算一遍百分比。这样用起来很方便。
3、我根据各种类型的比例,内部准备一个10000个单元的大数组,我根据每种状态的比例,在这个数组中填充足够的状态数,这样,构建了一个比例分配表。这实际上是把计算精度放大到小数点后两位,即99.99%这种精度
4、我真正提供随机数的函数,是在0~10000中取值,即随机命中比例分配表的某个单元,这个单元取出来是哪种状态,就返回哪种状态。由于比例分配表决定了各种状态被命中的比例,因此,我返回值是符合出现比例的。
5、最后我给了一个测试函数TestCTonyRandomArea,这是我团队的规矩,任何人写一个模块,必须同时提供相应的白盒测试函数,并将测试结果展示给使用者看,作为验收标准,即“你必须自己证明自己的工作是有效的,并接受检验”,我这个leader也不能例外。
6、PrintfInfo函数也是我团队的规矩,位于底层的类,有责任提供一个PrintInfo函数,供调用者随时查阅你的内部数据,“把你的数据暴露给大家看,想出来混江湖,就不怕裸奔被人看!”,呵呵《0bug-C/C++商用工程之道》里面很多类都有这个函数的。
嗯,中间有个GetRandomBetween这个函数,就是《0bug-C/C++商用工程之道》这本书P199页的源代码,这里我也给一份Copy,另外,其工作原理,有兴趣的读者可以看看书中的描述。

Code:

inline int _GetNot0(void)

{
int nRet=rand();

if(!nRet) nRet++;

return nRet;

}
inline int GetRandomBetween(int nBegin,int nEnd)

{
int n=_GetNot0();

int nBetween=0;

if(0>nBegin) nBegin=-nBegin;

if(0>nEnd) nEnd=-nEnd;

if(nBegin>nEnd)

{
nBetween=nEnd;
nEnd=nBegin;
nBegin=nBetween;
}
else if(nBegin==nEnd)

nEnd=nBegin+10;
nBetween=nEnd-nBegin;
n=n%nBetween;
n+=nBegin;
return n;
}

上述代码是我匆忙写的,属于测试用代码,不完全符合0bug一书里面的C/C++无错化程序设计原则,各位读者请注意哈。
不过,虽然是测试代码,但是带了很多工程型代码的影子,大家有兴趣可以看看。
另外,上述代码没有做锁封装,但是,仍然是多线程安全的。大家有注意到没有?
因为其工作原理是查表法,所有的表构造时一次生成,以后仅仅是纯读,请《0bug-C/C++商用工程之道》的读者注意2.3.6节,P50页的论述,“用锁的最高境界--不用”,这里符合第1条特例,“针对一个资源的所有操作都是读的时候,可以不加锁”。我这段代码可以算作实例了。各位读者可以参考一下。
好吧,就这么多,大家有兴趣可以看看。
嗯,有人可能说,这里的随机数产生器没有使用srand初始化,记住,我在用我自己的工程库,也就是《0bug-C/C++商用工程之道》的工程库,工程库的init动作里面已经做过这种动作了。
代码是VS2008下测试的,不过,我的理解,应该是跨平台的。
上述代码在很多游戏开发中可以投入实用的。
比如说,某个NPC哨兵,他可能在某个时刻,看前后左右,或者抽烟,或者睡觉,或者和另一个哨兵聊天,这时候,可以用这个随机数产生器,根据预设的每种动作的概率,权重,随时求出他的行为种类,并予以展示。
再或者,暗黑里面,我们使用暗金的装备,每次攻击,有百分之多少的概率出现压碎性打击,有多少概率出现冰冻属性,等等,也可以用这个随机数产生器来求。
大家慢慢想吧,呵呵。
嗯,这里网友发现一处bug,我已经修改了,请昨天看过的朋友注意:

Code:

if(100.0!=dNumberCount)

{
for(i=0;i<m_nTokenCount;i++)

{
m_dTokenPercentArray[i]/=dNumberCount;
m_dTokenPercentArray[i]*=100; //这里少乘了个100,百分比动态调整失效,因此,我加上了这一句。

}
}

这段代码出来后,一些网友表示看不懂我的原意,我们在CSDN博客有一些问答,我觉得对大家理解本程序的设计思路有帮助,因此,整理了一下,摘录在这里:
网友问:if(100.0!=dNumberCount) 浮点数直接用等于作比较是不正确的

我答:通常的做法是if((100.0-dNumberCount)<0.00000001),我知道的,不过,我为什么这么写,你看得懂吗?

网友问:不懂,老师教教吧,谢谢

我答:这里主要的目的是否定,是为了验证所有输入的double数加起来不是100.0,然后内部重新计算一次。由于外部人员输入,通常都不是正好100.0,因此,这里使用否定的严厉校验,即只要不是绝对==100.0,内部就重新计算。看好了,我是否定严厉,不是肯定严厉,因此不用教科书做法。

网友问:同意这样直接比较在此处也不会产生错误,我还是有如下观点: 1. 这样严厉的否定可能会拒绝一些本可以接受的输入,当然概率比较小,而且即使拒绝了也顶多是多计算一下,不会有bug 2. 即使是通过代码中的“自动调整其比例“的计算以后,仍然有可能会出发您的”否定严厉“ 所以我认为还是不应该用直接比较。 3. (100.0-dNumberCount)<0.00000001 这样的比较还是不合适的,一是要用绝对值,当然这里可能是您忘记写了;二是0.00000001的取定要推敲,用float.h中提供的常数宏更好

我答:嗯,你说的有理,我下回注意,呵呵。不过,你说的计算后仍然有否定严厉误差的问题,看我61行,我写那行代码的目的就是为了弥补这个误差的。不过后来看了没有误差,所以就隐掉了。

网友问:不是我挑错,但我总觉的你的代码显的很长。好多没必要。比如 GetRandomBetween函数,其实很简单。 GetRandomBetween(int nBegin,int nEnd) { int n = abs(nBegin); int nBetween= abs(nEnd) - n; if(nBetween < 0) { n = abs(nEnd); } if(nBetween == 0) nBetween = 10; n += _GetNot0(); return n; } 这样不是更简洁点么?完成的功能是完全一样的。

我答:把每句话尽量简化,简化到大家看起来一目了然的时候,程序就不容易出错。你的方案,一句话里面有多个计算,很绕。不是每个项目成员都有你的水平的。

网友问:再比如,你的 GetType和GetRandomType这2个函数,完全可以结合成一个嘛。 char GetType(int nTypeIndex) //输入参数0~10000 { return m_cTokenPercentArrayAreaUp[GetRandomBetween(0,10000)]; } 注意,这里的GetRandomBetween(0,10000)返回范围,就是0-9999. 这样不是简单多了?

我答:看下面,是故意拆分的,留两个api,给别人一个中间查表的切入点。

网友问:哦。原来是故意拆分的。

网友问:还有一点,为什么程序中,有好多char和short来替代int?这样有什么好处?是为了节约空间么?我认为,char和short在做参数传进传出,或者与int比较时,每次都要扩展为int,还不如直接用int好。在32位系统中,用int最快了。 只是自己的一些看法,有说的不对的,我们互相学习。

我答:嗯,看在你说出互相学习这句话,我回答你的问题:这段代码之所以写得像你说的这么繁琐,是为了尽可能提供api给使用者用,就是我小弟,他觉得用得方便。因为他是用户。我必须站在用户的需求角度设计api,方便调用。因此,很多稍微复杂一点的api函数,我会尽量拆细,每一步都提供一个函数接口给用户用。用不用在他,但是我尽量给全。

api接口设计,应该站在用户使用方便来设计的。反而是我的构造函数很复杂,是因为这些是我内部动作,我要屏蔽,无须通报外部,这体现高内聚,低耦合的原则。

char和short确实是为了节约空间考虑,因为里面有个10000个单元的大数组,用char是10k,用int是40k。

网友问:这么考虑的话也可以。我感觉在这种情况的话,用unsigned char会不会更好?

我答:我预设100个类型,<127,char的正数范围足以。

网友问:我倒是感觉这次的需求这么简单,没必要给更多的中间接口。设计以需求为目标,不是程序员觉的客户怎么方便怎么设计,有很多接口,客户也许根本用不到。反而造成不必要的设计,程序复杂度上升。

我答:这个算我个人习惯吧,基础模块的公有接口我习惯留得越多越好,越简单越好,最好每个接口一句话。这样,哪天有新需求,省的我改接口。因为这类基础模块的使用者,通常就是我团队成员,大家这么做也习惯了。不过,对外的接口,还是应该越少越好,这是原则,比如功能层向业务层输出的接口,和其他小组的接口,暴露越少越好。不同的需求导致不同的设计。

最后再补充一点,你有想过这个程序的效率没有?它用查表法,你可以和普通计算法比较一下,每个都跑个1000万次,你就看出时间差别了。而且,它不用锁,并行环境和串行环境效率一样高。

网友问:查表法肯定比每次都计算省时间。但第一次构造要花时间,而且牺牲一部分空间。就你这次的实现来看,用查表法是对的。

我答:实话跟你讲吧,这段代码是有前提的,我们要做5000万条记录,中间有20万个设备的记录,每个设备的采样频率不一样,我要并发模拟,你再想想我写这么复杂有道理没?

最后,还有网友反映,构造函数太复杂,看不懂,我这里也解释一下。当时情况比较急,小弟赶着用,我也没时间精雕细琢这个代码,所以,构造函数写得就很复杂,基本上想到哪写到哪。
这个函数的设计,并不符合《0bug-C/C++商用工程之道》第三章的“C/C++无错化设计原则”,所以看起来就难懂。看见没,只要不符合这个原则,只要一个函数内有多个循环主体,即多个逻辑意思,大家看起来就混乱。 希望大家以后开发引以为戒,尽量还是写简单的程序。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐