加权随机算法
2016-09-28 21:16
141 查看
加权随机算法一般应用在以下场景:有一个集合S,里面比如有A,B,C,D这四项。这时我们想随机从中抽取一项,但是抽取的概率不同,比如我们希望抽到A的概率是50%,抽到B和C的概率是20%,D的概率是10%。一般来说,我们可以给各项附一个权重,抽取的概率正比于这个权重。那么上述集合就成了:
{A:5,B:2,C:2,D:1}
{A,A,A,A,A,B,B,C,C,D}
然后就可以用均匀随机算法来从中选取。
好处:选取的时间复杂度为O(1),算法简单。
坏处:空间占用极大。另外如果权重数字位数较大,例如{A:49.1 B:50.9}的时候,就会产生巨大的空间浪费。
还是以上面的集合为例,sum等于10,如果随机到1-5,则会在遍历第一个数字的时候就退出遍历。符合所选取的概率。
好处:没有额外的空间占用,算法也比较简单。
坏处:选取的时候要遍历集合,时间复杂度是O(n)。
比较{A:5,B:2,C:2,D:1}和{B:2,C:2,A:5,D:1}
前者遍历步数的期望是5/10*1+2/10*2+2/10*3+1/10*4而后者是2/10*1+2/10*2+5/10*3+1/10*4。
好处:提高了平均选取速度。
坏处:需要进行排序,并且不易添加删除修改项。
简化成下面的问题:
字典的key代表是省份,value代表的是权重,我们现在需要一个函数,每次基于权重选择一个省份出来
{"A":2, "B":2, "C":4, "D":10, "E": 20}
[python] view plain copy print?
#!/usr/bin/env python
# -*- coding: utf-8 -*-
#python2.7x
#random_weight.py
#author: orangleliu@gmail.com 2014-10-11
'''''
每个元素都有权重,然后根据权重随机取值
输入 {"A":2, "B":2, "C":4, "D":10, "E": 20}
输出一个值
'''
import random
import collections as coll
data = {"A":2, "B":2, "C":4, "D":6, "E": 11}
#第一种 根据元素权重值 "A"*2 ..等,把每个元素取权重个元素放到一个数组中,然后最数组下标取随机数得到权重
def list_method():
all_data = []
for v, w in data.items():
temp = []
for i in range(w):
temp.append(v)
all_data.extend(temp)
n = random.randint(0,len(all_data)-1)
return all_data
#第二种 也是要计算出权重总和,取出一个随机数,遍历所有元素,把权重相加sum,当sum大于等于随机数字的时候停止,取出当前的元组
def iter_method():
total = sum(data.values())
rad = random.randint(1,total)
cur_total = 0
res = ""
for k, v in data.items():
cur_total += v
if rad<= cur_total:
res = k
break
return res
def test(method):
dict_num = coll.defaultdict(int)
for i in range(100):
dict_num[eval(method)] += 1
for i,j in dict_num.items():
print i, j
if __name__ == "__main__":
test("list_method()")
print "-"*50
test("iter_method()")
一次执行的结果
[javascript] view plain copy print?
A 4
C 14
B 7
E 44
D 31
--------------------------------------------------
A 8
C 16
B 6
E 43
D 27
{A:5,B:2,C:2,D:1}
方法一:
扩展这个集合,使每一项出现的次数与其权重正相关。在上述例子这个集合扩展成:{A,A,A,A,A,B,B,C,C,D}
然后就可以用均匀随机算法来从中选取。
好处:选取的时间复杂度为O(1),算法简单。
坏处:空间占用极大。另外如果权重数字位数较大,例如{A:49.1 B:50.9}的时候,就会产生巨大的空间浪费。
方法二:
计算权重总和sum,然后在1到sum之间随机选择一个数R,之后遍历整个集合,统计遍历的项的权重之和,如果大于等于R,就停止遍历,选择遇到的项。还是以上面的集合为例,sum等于10,如果随机到1-5,则会在遍历第一个数字的时候就退出遍历。符合所选取的概率。
好处:没有额外的空间占用,算法也比较简单。
坏处:选取的时候要遍历集合,时间复杂度是O(n)。
方法三:
可以对方法二进行优化,对项目集按照权重排序。这样遍历的时候,概率高的项可以很快遇到,减少遍历的项。比较{A:5,B:2,C:2,D:1}和{B:2,C:2,A:5,D:1}
前者遍历步数的期望是5/10*1+2/10*2+2/10*3+1/10*4而后者是2/10*1+2/10*2+5/10*3+1/10*4。
好处:提高了平均选取速度。
坏处:需要进行排序,并且不易添加删除修改项。
问题:
例如我们要选从不同省份选取一个号码,每个省份的权重不一样,直接选随机数肯定是不行的了,就需要一个模型来解决这个问题。简化成下面的问题:
字典的key代表是省份,value代表的是权重,我们现在需要一个函数,每次基于权重选择一个省份出来
{"A":2, "B":2, "C":4, "D":10, "E": 20}
解决:
这是能想到和能看到的最多的版本,不知道还没有更高效好用的算法。[python] view plain copy print?
#!/usr/bin/env python
# -*- coding: utf-8 -*-
#python2.7x
#random_weight.py
#author: orangleliu@gmail.com 2014-10-11
'''''
每个元素都有权重,然后根据权重随机取值
输入 {"A":2, "B":2, "C":4, "D":10, "E": 20}
输出一个值
'''
import random
import collections as coll
data = {"A":2, "B":2, "C":4, "D":6, "E": 11}
#第一种 根据元素权重值 "A"*2 ..等,把每个元素取权重个元素放到一个数组中,然后最数组下标取随机数得到权重
def list_method():
all_data = []
for v, w in data.items():
temp = []
for i in range(w):
temp.append(v)
all_data.extend(temp)
n = random.randint(0,len(all_data)-1)
return all_data
#第二种 也是要计算出权重总和,取出一个随机数,遍历所有元素,把权重相加sum,当sum大于等于随机数字的时候停止,取出当前的元组
def iter_method():
total = sum(data.values())
rad = random.randint(1,total)
cur_total = 0
res = ""
for k, v in data.items():
cur_total += v
if rad<= cur_total:
res = k
break
return res
def test(method):
dict_num = coll.defaultdict(int)
for i in range(100):
dict_num[eval(method)] += 1
for i,j in dict_num.items():
print i, j
if __name__ == "__main__":
test("list_method()")
print "-"*50
test("iter_method()")
一次执行的结果
[javascript] view plain copy print?
A 4
C 14
B 7
E 44
D 31
--------------------------------------------------
A 8
C 16
B 6
E 43
D 27
相关文章推荐
- python的random模块及加权随机算法的python实现
- 加权轮询和加权随机算法
- python的random模块及加权随机算法的python实现方法
- 随机算法 素数测试
- 进价移动加权核算体系
- HDU3718/ZOJ3425 Similarity(The 2010 ACM-ICPC Asia Chengdu Regional Contest,加权二分图的最优匹配)
- hdu 3932 最小覆盖圆 随机算法做法
- 最小二乘和加权最小二乘的原理与实现
- 【最大矩阵和】最大加权矩形 rqnoj106
- uva 11987 Almost Union-Find(加权并查集)
- [置顶] 局部加权回归、最小二乘的概率解释、逻辑斯蒂回归、感知器算法——斯坦福ML公开课笔记3
- hdu 4712 Hamming Distance ( 随机算法混过了 )
- 最大加权矩形{类似最大子串和}{O(n…
- 局部加权回归实例
- 与权值成正比的随机算法设计
- upstream均衡负载模块(一)加权轮询策略
- 【Nginx】负载均衡-加权轮询策略剖析
- 不重复的随机算法
- WFQ加权公平队列(每个队列的计算原则与权重比关系)加权效果后转发取证 推荐
- IRLS(迭代加权最小二乘)