FP-growth算法高效发现频繁项集
2017-11-15 13:28
471 查看
在用搜索引擎时,我们发现输入单词的一部分时,搜索引擎会自动补全查询词项,这里的原理其实是通过查询互联网上的词来找出经常出现在一块的词对,这需要一种高效发现频繁集的方法。
它基于Apriori构建,但在完成相同任务时采用了一些不同的技术。这里的任务是将数据集存储在一个特定的称作FP树的结构之后发现频繁项集或者频繁项对,即常在一块出现的元素项的集合FP树。这种做法使得算法的执行速度要快于Apriori,通常性能要好两个数量级以上。
注意:
这种算法虽然能更为高效地发现频繁项集,但不能用于发现关联规则。
FP-growth算法只需要对数据库进行两次扫描,而Apriori算法对于每个潜在的频繁项集都会扫描数据集判定给定模式是否频繁,因此FP-gr0wth算法的速度要比Apriori算法快。
FP-growth算法发现频繁项集的过程:
构建FP树
从FP树中挖掘频繁项集
FP-growth算法将数据存储在一种称为FP树的紧凑数据结构中。FP代表频繁模式(Frequent Pattern)。一棵FP树看上去与计算机科学中的其他树结构类似,但是它通过链接(link)来连接相似元素,被连起来的元素项可以看成一个链表。
与搜索树不同的是,一个元素项可以在一棵FP树种出现多次。FP树会存储项集的出现频率,而每个项集会以路径的方式存储在数中。存在相似元素的集合会共享树的一部分。只有当集合之间完全不同时,树才会分叉。 树节点上给出集合中的单个元素及其在序列中的出现次数,路径会给出该序列的出现次数。
相似项之间的链接称为节点链接(node link),用于快速发现相似项的位置。
FP-growth算法还需要一个称为头指针表的数据结构,其实很简单,就是用来记录各个元素项的总出现次数的数组,再附带一个指针指向FP树中该元素项的第一个节点。这样每个元素项都构成一条单链表。
代码:
运行结果:
以上就是FP树的构建过程,已经把具体流程打印出类了,一步一步对应上面带头指针表的图就可以搞清楚其中的细节了,具体解释参考《机器学习实战》。
构建FP树的前两步:
这里我只想说,数据结构很重要!数据结构很重要!数据结构很重要!
python中frozenset( )的用法
从FP树中抽取频繁项集的三个基本步骤如下:
从FP树中获得条件模式基;
利用条件模式基,构建一个条件FP树;
迭代重复步骤1步骤2,直到树包含一个元素项为止。
其中关键是寻找条件模式基的过程,之后为每一个条件模式基创建对应的条件FP树。
则由吐1.1得到每一个频繁元素项的所有前缀路径(条件模式基)为:
前缀路径将在下一步中用于构建条件FP树,暂时先不考虑。如何发现某个频繁元素项的所在的路径?利用先前创建的头指针表和FP树中的相似元素节点指针,我们已经有了每个元素对应的单链表,因而可以直接获取。
在代码实现中:为给定元素项生成一个条件模式基(前缀路径),这通过访问树中所有包含给定元素项的节点来完成。
图示:
完整代码:
运行结果:
上面是具体的过程。
补充:因为中间涉及到很多递归,所以具体的过程比较麻烦,这里举一个例子.
对照上面代码的运行结果可以帮助分析,没别的,就是数据结构的东西。
在2中的代码主函数部分改成如下:
运行结果:
同时也可以使用其他设置来查看运行结果,比如降低置信度级别。
总结:
FP-growth算法是一种用于发现数据集中频繁模式的有效方法。FP-growth算法利用Apriori原则,执行更快。
FP-growth算法还有一个map-reduce版本的实现,它也很不错,可以扩展到多台机器上运行。Google使用该算法通过遍历大量文本来发现频繁共现词,其做法和我们刚才介绍的例子非常类似。
Python 字典(Dictionary) get() 函数返回指定键的值,如果值不在字典中返回默认值。
get()方法语法: dict.get(key, default=None)
key – 字典中要查找的键
default – 如果指定键的值不存在时,返回该默认值值。
示例:
(2)
(3)
(4)
参考:https://www.cnblogs.com/qwertWZ/p/4510857.html
它基于Apriori构建,但在完成相同任务时采用了一些不同的技术。这里的任务是将数据集存储在一个特定的称作FP树的结构之后发现频繁项集或者频繁项对,即常在一块出现的元素项的集合FP树。这种做法使得算法的执行速度要快于Apriori,通常性能要好两个数量级以上。
注意:
这种算法虽然能更为高效地发现频繁项集,但不能用于发现关联规则。
FP-growth算法只需要对数据库进行两次扫描,而Apriori算法对于每个潜在的频繁项集都会扫描数据集判定给定模式是否频繁,因此FP-gr0wth算法的速度要比Apriori算法快。
FP-growth算法发现频繁项集的过程:
构建FP树
从FP树中挖掘频繁项集
1. 构建FP树
1.1 这里必须着重说下FP树,很重要!
FP-growth算法将数据存储在一种称为FP树的紧凑数据结构中。FP代表频繁模式(Frequent Pattern)。一棵FP树看上去与计算机科学中的其他树结构类似,但是它通过链接(link)来连接相似元素,被连起来的元素项可以看成一个链表。
与搜索树不同的是,一个元素项可以在一棵FP树种出现多次。FP树会存储项集的出现频率,而每个项集会以路径的方式存储在数中。存在相似元素的集合会共享树的一部分。只有当集合之间完全不同时,树才会分叉。 树节点上给出集合中的单个元素及其在序列中的出现次数,路径会给出该序列的出现次数。
相似项之间的链接称为节点链接(node link),用于快速发现相似项的位置。
1.2 FP-growth算法的工作流程如下
首先构建FP树,然后利用它来挖掘频繁项集。为构建FP树,需要对原始数据集扫描两遍。第一遍对所有元素项的出现次数进行计数。数据库的第一遍扫描用来统计出现的频率,而第二遍扫描中只考虑那些频繁元素。FP-growth算法还需要一个称为头指针表的数据结构,其实很简单,就是用来记录各个元素项的总出现次数的数组,再附带一个指针指向FP树中该元素项的第一个节点。这样每个元素项都构成一条单链表。
1.3 事务数据样例
代码:
# -*- coding: utf-8 -*- # 返回一个事物列表 def loadSimpDat(): simpDat = [['r', 'z', 'h', 'j', 'p'], ['z', 'y', 'x', 'w', 'v', 'u', 't', 's'], ['z'], ['r', 'x', 'n', 'o', 's'], ['y', 'r', 'x', 'z', 'q', 't', 'p'], ['y', 'z', 'x', 'e', 'q', 's', 't', 'm']] return simpDat # 用于实现列表到字典的转换过程 def createInitSet(dataSet): # 把每条事务记录由列表转换为frozenset类型,并且其键对应的值为1 retDict = {} for trans in dataSet: retDict[frozenset(trans)] = 1 return retDict # 构建FP树的类定义 class treeNode: def __init__(self, nameValue, numOccur, parentNode): self.name = nameValue self.count = numOccur self.nodeLink = None # 用于链接相似的元素项 self.parent = parentNode # 指向当前节点的父节点 self.children = {} def inc(self, numOccur): self.count += numOccur def disp(self, ind=1): # 用于将树以文本形式显示 print ' ' *ind, self.name, ' ', self.count # ' ' *ind此处代表的是空格数,也即是为了显示运行结果的结构的 for child in self.children.values(): # 子节点也是treeNode对象 child.disp(ind+1) # 递归调用disp() # FPA树构建函数 def createTree(dataSet, minSup=1): # minSup最小支持度 headerTable = {} # 两次遍历数据集 for trans in dataSet: # 第一次遍历,统计每个元素出现的频度 for item in trans: # 这个式子很牛,headerTable[item]得到的是遍历每个事务项中的每个元素后的个数,即得到头指针表 headerTable[item] = headerTable.get(item, 0) + dataSet[trans] print 'headerTable_1:',headerTable for k in headerTable.keys(): # 删除头指针表中出现次数小于minsup的项 if headerTable[k] < minSup: del(headerTable[k]) print 'headerTable_2:',headerTable freqItemSet = set(headerTable.keys()) # 得到频繁项的元素,即字典的键 print 'freqItemSet: ',freqItemSet if len(freqItemSet) == 0: return None, None # 如果没有元素项满足要求,则退出 for k in headerTable: # 遍历过滤后的头指针表 headerTable[k] = [headerTable[k], None] # 每个项(字典键)的值是[计数值,元素项指针] print 'headerTable_3: ',headerTable retTree = treeNode('Null Set', 1, None) # 创建根节点 for tranSet, count in dataSet.items(): # 遍历dataSet中的每一项[],tranSet, count是[项,数1] localD = {} print 'tranSet and count:',tranSet,'-->',count for item in tranSet: if item in freqItemSet: # 基于频繁项集再遍历一遍 localD[item] = headerTable[item][0] print 'localD:',localD if len(localD) > 0: # 列表推到式进行排序,得到降序排列的每个事务项(过滤后的) orderedItems = [v[0] for v in sorted(localD.items(), key=lambda p: p[1], reverse=True)] print 'orderedItems:',orderedItems updateTree(orderedItems, retTree, headerTable, count) return retTree, headerTable # # 更新树 def updateTree(items, inTree, headerTable, count): # intree:树节点对象,count=1,items过滤后的事务项 print 'children:',inTree.children.keys() if items[0] in inTree.children: # 事务中的第一个元素是否作为子节点存在 print 'here...0' inTree.children[items[0]].inc(count) # 如果存在则更新该元素项的计数 else: # 如果不存在则将其作为一个子节点添加到树中 inTree.children[items[0]] = treeNode(items[0], count, inTree) # inTree是父节点,count=1,item[0]是节点名 print 'here....1' inTree.disp() if headerTable[items[0]][1] == None: # [items[0]][1]是第一个键的值(列表)的第二个元素 print 'here...2' headerTable[items[0]][1] = inTree.children[items[0]] # 把节点对象赋给headerTable的[items[0]][1] #print 'headerTable_4:',headerTable else: # 头指针表也要更新以指向新的节点 print 'here....3' updateHeader(headerTable[items[0]][1], inTree.children[items[0]]) if len(items) > 1: # inTree.children[items[0]]头指针表也要指向新的节点 print 'len(items):',len(items) updateTree(items[1::], inTree.children[items[0]], headerTable, count) # 更新头指针表 def updateHeader(nodeToTest, targetNode): # nodeToTest是节点对象,targetNode也是节点对象 print 'updateHeader:',nodeToTest.name,targetNode.name while (nodeToTest.nodeLink != None): print 'gaga...' nodeToTest = nodeToTest.nodeLink nodeToTest.nodeLink = targetNode print 'nodeToTest.nodeLink-->',nodeToTest.nodeLink.name def ascendTree(leafNode, prefixPath): #ascends from leaf node to root if leafNode.parent != None: prefixPath.append(leafNode.name) ascendTree(leafNode.parent, prefixPath) # 主函数 # 测试 rootNode=treeNode('pyramid',9,None) rootNode.disp() rootNode.children['eye']=treeNode('pyramid',13,None) rootNode.disp() rootNode.children['phoenix']=treeNode('phoenix',3,None) rootNode.disp() # 构建FP树 simDat=loadSimpDat() initSet=createInitSet(simDat) print 'initSet:',initSet myFPtree,myHeaderTab=createTree(initSet, 3) print 'complete tree:',myFPtree.disp() #print 'myHeaderTab:',myHeaderTab
运行结果:
pyramid 9 pyramid 9 pyramid 13 pyramid 9 pyramid 13 phoenix 3 initSet: {frozenset(['e', 'm', 'q', 's', 't', 'y', 'x', 'z']): 1, frozenset(['x', 's', 'r', 'o', 'n']): 1, frozenset(['s', 'u', 't', 'w', 'v', 'y', 'x', 'z']): 1, frozenset(['q', 'p', 'r', 't', 'y', 'x', 'z']): 1, frozenset(['h', 'r', 'z', 'p', 'j']): 1, frozenset(['z']): 1} headerTable_1: {'e': 1, 'h': 1, 'j': 1, 'm': 1, 'o': 1, 'n': 1, 'q': 2, 'p': 2, 's': 3, 'r': 3, 'u': 1, 't': 3, 'w': 1, 'v': 1, 'y': 3, 'x': 4, 'z': 5} headerTable_2: {'s': 3, 'r': 3, 't': 3, 'y': 3, 'x': 4, 'z': 5} freqItemSet: set(['s', 'r', 't', 'y', 'x', 'z']) headerTable_3: {'s': [3, None], 'r': [3, None], 't': [3, None], 'y': [3, None], 'x': [4, None], 'z': [5, None]} tranSet and count: frozenset(['e', 'm', 'q', 's', 't', 'y', 'x', 'z']) --> 1 localD: {'y': 3, 'x': 4, 's': 3, 'z': 5, 't': 3} orderedItems: ['z', 'x', 'y', 's', 't'] children: [] here....1 Null Set 1 z 1 here...2 len(items): 5 children: [] here....1 z 1 x 1 here...2 len(items): 4 children: [] here....1 x 1 y 1 here...2 len(items): 3 children: [] here....1 y 1 s 1 here...2 len(items): 2 children: [] here....1 s 1 t 1 here...2 tranSet and count: frozenset(['x', 's', 'r', 'o', 'n']) --> 1 localD: {'x': 4, 's': 3, 'r': 3} orderedItems: ['x', 's', 'r'] children: ['z'] here....1 Null Set 1 x 1 z 1 x 1 y 1 s 1 t 1 here....3 updateHeader: x x nodeToTest.nodeLink--> x len(items): 3 children: [] here....1 x 1 s 1 here....3 updateHeader: s s nodeToTest.nodeLink--> s len(items): 2 children: [] here....1 s 1 r 1 here...2 tranSet and count: frozenset(['s', 'u', 't', 'w', 'v', 'y', 'x', 'z']) --> 1 localD: {'y': 3, 'x': 4, 's': 3, 'z': 5, 't': 3} orderedItems: ['z', 'x', 'y', 's', 't'] children: ['x', 'z'] here...0 len(items): 5 children: ['x'] here...0 len(items): 4 children: ['y'] here...0 len(items): 3 children: ['s'] here...0 len(items): 2 children: ['t'] here...0 tranSet and count: frozenset(['q', 'p', 'r', 't', 'y', 'x', 'z']) --> 1 localD: {'y': 3, 'x': 4, 'r': 3, 't': 3, 'z': 5} orderedItems: ['z', 'x', 'y', 'r', 't'] children: ['x', 'z'] here...0 len(items): 5 children: ['x'] here...0 len(items): 4 children: ['y'] here...0 len(items): 3 children: ['s'] here....1 y 3 s 2 t 2 r 1 here....3 updateHeader: r r nodeToTest.nodeLink--> r len(items): 2 children: [] here....1 r 1 t 1 here....3 updateHeader: t t nodeToTest.nodeLink--> t tranSet and count: frozenset(['h', 'r', 'z', 'p', 'j']) --> 1 localD: {'r': 3, 'z': 5} orderedItems: ['z', 'r'] children: ['x', 'z'] here...0 len(items): 2 children: ['x'] here....1 z 4 x 3 y 3 s 2 t 2 r 1 t 1 r 1 here....3 updateHeader: r r gaga... nodeToTest.nodeLink--> r tranSet and count: frozenset(['z']) --> 1 localD: {'z': 5} orderedItems: ['z'] children: ['x', 'z'] here...0 complete tree: Null Set 1 x 1 s 1 r 1 z 5 x 3 y 3 s 2 t 2 r 1 t 1 r 1 None myHeaderTab: {'s': [3, <__main__.treeNode instance at 0x000000000B905188>], 'r': [3, <__main__.treeNode instance at 0x000000000B9B0E08>], 't': [3, <__main__.treeNode instance at 0x000000000B905F08>], 'y': [3, <__main__.treeNode instance at 0x000000000B9051C8>], 'x': [4, <__main__.treeNode instance at 0x000000000B9E5688>], 'z': [5, <__main__.treeNode instance at 0x000000000B9E59C8>]}
以上就是FP树的构建过程,已经把具体流程打印出类了,一步一步对应上面带头指针表的图就可以搞清楚其中的细节了,具体解释参考《机器学习实战》。
构建FP树的前两步:
这里我只想说,数据结构很重要!数据结构很重要!数据结构很重要!
python中frozenset( )的用法
2. 从FP树中挖掘频繁项
有了FP树之后,就可以抽取频繁项集了。这里的思路与Apriori算法大致类似,首先从单元素项集合开始,然后在此基础上逐步构建更大的集合。从FP树中抽取频繁项集的三个基本步骤如下:
从FP树中获得条件模式基;
利用条件模式基,构建一个条件FP树;
迭代重复步骤1步骤2,直到树包含一个元素项为止。
其中关键是寻找条件模式基的过程,之后为每一个条件模式基创建对应的条件FP树。
2.1 抽取条件模式基
首先从头指针表中的每个频繁元素项开始,对每个元素项,获得其对应的条件模式基(conditional pattern base)。条件模式基是以所查找元素项为结尾的路径集合。每一条路径其实都是一条前缀路径(prefix path)。简而言之,一条前缀路径是介于所查找元素项与树根节点之间的所有内容。则由吐1.1得到每一个频繁元素项的所有前缀路径(条件模式基)为:
前缀路径将在下一步中用于构建条件FP树,暂时先不考虑。如何发现某个频繁元素项的所在的路径?利用先前创建的头指针表和FP树中的相似元素节点指针,我们已经有了每个元素对应的单链表,因而可以直接获取。
在代码实现中:为给定元素项生成一个条件模式基(前缀路径),这通过访问树中所有包含给定元素项的节点来完成。
2.2 创建条件FP树
对于每一个频繁项,都要创建一棵条件FP树。可以使用刚才发现的条件模式基作为输入数据,并通过相同的建树代码来构建这些树。例如,对于r,即以“{x, s}: 1, {z, x, y}: 1, {z}: 1”为输入,调用函数createTree()获得r的条件FP树;对于t,输入是对应的条件模式基“{z, x, y, s}: 2, {z, x, y, r}: 1”,然后再递归地发现频繁项集,发现条件模式基,以及发现另外的条件树。图示:
2.3 递归查找频繁项集
有了FP树和条件FP树,我们就可以在前两步的基础上递归得查找频繁项集。完整代码:
# -*- coding: utf-8 -*- # 返回一个事物列表 def loadSimpDat(): simpDat = [['r', 'z', 'h', 'j', 'p'], ['z', 'y', 'x', 'w', 'v', 'u', 't', 's'], ['z'], ['r', 'x', 'n', 'o', 's'], ['y', 'r', 'x', 'z', 'q', 't', 'p'], ['y', 'z', 'x', 'e', 'q', 's', 't', 'm']] return simpDat # 用于实现列表到字典的转换过程 def createInitSet(dataSet): # 把每条事务记录由列表转换为frozenset类型,并且其键对应的值为1 retDict = {} for trans in dataSet: retDict[frozenset(trans)] = 1 return retDict # 构建FP树的类定义 class treeNode: def __init__(self, nameValue, numOccur, parentNode): self.name = nameValue self.count = numOccur self.nodeLink = None # 用于链接相似的元素项 self.parent = parentNode # 指向当前节点的父节点 self.children = {} def inc(self, numOccur): self.count += numOccur def disp(self, ind=1): # 用于将树以文本形式显示 print ' ' *ind, self.name, ' ', self.count # ' ' *ind此处代表的是空格数,也即是为了显示运行结果的结构的 for child in self.children.values(): # 子节点也是treeNode对象 child.disp(ind+1) # 递归调用disp() # FPA树构建函数 def createTree(dataSet, minSup=1): # minSup最小支持度 headerTable = {} for trans in dataSet: # 第一次遍历,统计每个元素出现的频度 for item in trans: headerTable[item] = headerTable.get(item, 0) + dataSet[trans] for k in headerTable.keys(): # 删除头指针表中出现次数小于minsup的项 if headerTable[k] < minSup: del(headerTable[k]) freqItemSet = set(headerTable.keys()) # 得到频繁项的元素,即字典的键 if len(freqItemSet) == 0: return None, None # 如果没有元素项满足要求,则退出 for k in headerTable: # 遍历过滤后的头指针表 headerTable[k] = [headerTable[k], None] # 每个项(字典键)的值是[计数值,元素项指针] retTree = treeNode('Null Set', 1, None) # 创建根节点 for tranSet, count in dataSet.items(): # 遍历dataSet中的每一项[],tranSet, count是[项,数1] localD = {} for item in tranSet: if item in freqItemSet: # 基于频繁项集再遍历一遍 localD[item] = headerTable[item][0] if len(localD) > 0: orderedItems = [v[0] for v in sorted(localD.items(), key=lambda p: p[1], reverse=True)] updateTree(orderedItems, retTree, headerTable, count) return retTree, headerTable # 更新树 def updateTree(items, inTree, headerTable, count): # intree:树节点对象,count=1,items过滤后的事务项 if items[0] in inTree.children: # 事务中的第一个元素是否作为子节点存在 inTree.children[items[0]].inc(count) # 如果存在则更新该元素项的计数 else: # 如果不存在则将其作为一个子节点添加到树中 inTree.children[items[0]] = treeNode(items[0], count, inTree) # inTree是父节点,count=1,item[0]是节点名 inTree.disp() if headerTable[items[0]][1] == None: # [items[0]][1]是第一个键的值(列表)的第二个元素 headerTable[items[0]][1] = inTree.children[items[0]] # 把节点对象赋给headerTable的[items[0]][1] else: # 头指针表也要更新以指向新的节点 updateHeader(headerTable[items[0]][1], inTree.children[items[0]]) if len(items) > 1: # inTree.children[items[0]]头指针表也要指向新的节点 updateTree(items[1::], inTree.children[items[0]], headerTable, count) # 更新头指针表 def updateHeader(nodeToTest, targetNode): # nodeToTest是节点对象,targetNode也是节点对象 while (nodeToTest.nodeLink != None): nodeToTest = nodeToTest.nodeLink nodeToTest.nodeLink = targetNode # 发现给定元素结尾的所有路径的函数(上溯FP树) def ascendTree(leafNode, prefixPath): if leafNode.parent != None: # 迭代上溯整棵树,因为只有根节点的父节点是None prefixPath.append(leafNode.name) ascendTree(leafNode.parent, prefixPath) # 创建条件基(遍历链表直到到达结尾,,每遇到一个元素项都会调用asscendtree()来上溯FP树) def findPrefixPath(basePat, treeNode): # 两个参数:给定元素项的节点和该节点指向的对象 condPats = {} # 条件模式基字典 while treeNode != None: # prefixPath = [] # 上溯列表 ascendTree(treeNode, prefixPath) print 'prefixPath:',prefixPath if len(prefixPath) > 1: condPats[frozenset(prefixPath[1:])] = treeNode.count print 'condPats:',condPats treeNode = treeNode.nodeLink return condPats # 返回对应的条件模式基 # 递归查找频繁项集 #(myFPtree, myHeaderTab, 3, set([]), freqItems=[]) def mineTree(inTree, headerTable, minSup, preFix, freqItemList): bigL = [v[0] for v in sorted(headerTable.items(), key=lambda p: p[1])] # 排序头指针表,按升序排列 print 'bigL:',bigL # 头指针表 for basePat in bigL: # 从bigL的底部开始 newFreqSet = preFix.copy() newFreqSet.add(basePat) # set集合用add() print 'finalFrequent Item: ',newFreqSet # 频繁项 freqItemList.append(newFreqSet) # 列表用append() #print 'treenood:',headerTable[basePat][1].name condPattBases = findPrefixPath(basePat, headerTable[basePat][1]) # 第二个参数是 print 'condPattBases :',basePat, '-->',condPattBases # 得到模式基字典 # 针对每一个条件模式基创建条件FP树 myCondTree, myHead = createTree(condPattBases, minSup) # myCondTree条件fp树 print 'head from conditional tree: ', myHead if myHead != None: print 'conditional tree for: ',newFreqSet myCondTree.disp(1) mineTree(myCondTree, myHead, minSup, newFreqSet, freqItemList) # 主函数 # 构建FP树 simDat=loadSimpDat() initSet=createInitSet(simDat) print 'initSet:',initSet myFPtree,myHeaderTab=createTree(initSet, 3) myFPtree.disp() print 'myHeaderTab:',myHeaderTab freqItems=[] mineTree(myFPtree, myHeaderTab, 3, set([]), freqItems) print 'freqItems:',freqItems
运行结果:
initSet: {frozenset(['e', 'm', 'q', 's', 't', 'y', 'x', 'z']): 1, frozenset(['x', 's', 'r', 'o', 'n']): 1, frozenset(['s', 'u', 't', 'w', 'v', 'y', 'x', 'z']): 1, frozenset(['q', 'p', 'r', 't', 'y', 'x', 'z']): 1, frozenset(['h', 'r', 'z', 'p', 'j']): 1, frozenset(['z']): 1} Null Set 1 z 1 z 1 x 1 x 1 y 1 y 1 s 1 s 1 t 1 Null Set 1 x 1 z 1 x 1 y 1 s 1 t 1 x 1 s 1 s 1 r 1 y 3 s 2 t 2 r 1 r 1 t 1 z 4 x 3 y 3 s 2 t 2 r 1 t 1 r 1 Null Set 1 x 1 s 1 r 1 z 5 x 3 y 3 s 2 t 2 r 1 t 1 r 1 myHeaderTab: {'s': [3, <__main__.treeNode instance at 0x000000000B8E9808>], 'r': [3, <__main__.treeNode instance at 0x000000000B8E9608>], 't': [3, <__main__.treeNode instance at 0x000000000B8E9788>], 'y': [3, <__main__.treeNode instance at 0x000000000B8E9848>], 'x': [4, <__main__.treeNode instance at 0x000000000B8E97C8>], 'z': [5, <__main__.treeNode instance at 0x000000000B8E9508>]} bigL: ['r', 't', 's', 'y', 'x', 'z'] finalFrequent Item: set(['r']) prefixPath: ['r', 's', 'x'] condPats: {frozenset(['x', 's']): 1} prefixPath: ['r', 'y', 'x', 'z'] condPats: {frozenset(['x', 's']): 1, frozenset(['y', 'x', 'z']): 1} prefixPath: ['r', 'z'] condPats: {frozenset(['x', 's']): 1, frozenset(['z']): 1, frozenset(['y', 'x', 'z']): 1} condPattBases : r --> {frozenset(['x', 's']): 1, frozenset(['z']): 1, frozenset(['y', 'x', 'z']): 1} head from conditional tree: None finalFrequent Item: set(['t']) prefixPath: ['t', 's', 'y', 'x', 'z'] condPats: {frozenset(['y', 'x', 's', 'z']): 2} prefixPath: ['t', 'r', 'y', 'x', 'z'] condPats: {frozenset(['y', 'x', 's', 'z']): 2, frozenset(['y', 'x', 'r', 'z']): 1} condPattBases : t --> {frozenset(['y', 'x', 's', 'z']): 2, frozenset(['y', 'x', 'r', 'z']): 1} Null Set 1 y 2 y 2 x 2 x 2 z 2 head from conditional tree: {'y': [3, <__main__.treeNode instance at 0x000000000B8E9888>], 'x': [3, <__main__.treeNode instance at 0x000000000B8E9448>], 'z': [3, <__main__.treeNode instance at 0x000000000B8E9408>]} conditional tree for: set(['t']) Null Set 1 y 3 x 3 z 3 bigL: ['z', 'x', 'y'] finalFrequent Item: set(['z', 't']) prefixPath: ['z', 'x', 'y'] condPats: {frozenset(['y', 'x']): 3} condPattBases : z --> {frozenset(['y', 'x']): 3} Null Set 1 y 3 y 3 x 3 head from conditional tree: {'y': [3, <__main__.treeNode instance at 0x000000000B8E9488>], 'x': [3, <__main__.treeNode instance at 0x000000000B8E93C8>]} conditional tree for: set(['z', 't']) Null Set 1 y 3 x 3 bigL: ['x', 'y'] finalFrequent Item: set(['x', 'z', 't']) prefixPath: ['x', 'y'] condPats: {frozenset(['y']): 3} condPattBases : x --> {frozenset(['y']): 3} Null Set 1 y 3 head from conditional tree: {'y': [3, <__main__.treeNode instance at 0x000000000B8E92C8>]} conditional tree for: set(['x', 'z', 't']) Null Set 1 y 3 bigL: ['y'] finalFrequent Item: set(['y', 'x', 'z', 't']) prefixPath: ['y'] condPattBases : y --> {} head from conditional tree: None finalFrequent Item: set(['y', 'z', 't']) prefixPath: ['y'] condPattBases : y --> {} head from conditional tree: None finalFrequent Item: set(['x', 't']) prefixPath: ['x', 'y'] condPats: {frozenset(['y']): 3} condPattBases : x --> {frozenset(['y']): 3} Null Set 1 y 3 head from conditional tree: {'y': [3, <__main__.treeNode instance at 0x000000000B8E9188>]} conditional tree for: set(['x', 't']) Null Set 1 y 3 bigL: ['y'] finalFrequent Item: set(['y', 'x', 't']) prefixPath: ['y'] condPattBases : y --> {} head from conditional tree: None finalFrequent Item: set(['y', 't']) prefixPath: ['y'] condPattBases : y --> {} head from conditional tree: None finalFrequent Item: set(['s']) prefixPath: ['s', 'y', 'x', 'z'] condPats: {frozenset(['y', 'x', 'z']): 2} prefixPath: ['s', 'x'] condPats: {frozenset(['y', 'x', 'z']): 2, frozenset(['x']): 1} condPattBases : s --> {frozenset(['y', 'x', 'z']): 2, frozenset(['x']): 1} Null Set 1 x 2 head from conditional tree: {'x': [3, <__main__.treeNode instance at 0x000000000B69B788>]} conditional tree for: set(['s']) Null Set 1 x 3 bigL: ['x'] finalFrequent Item: set(['x', 's']) prefixPath: ['x'] condPattBases : x --> {} head from conditional tree: None finalFrequent Item: set(['y']) prefixPath: ['y', 'x', 'z'] condPats: {frozenset(['x', 'z']): 3} condPattBases : y --> {frozenset(['x', 'z']): 3} Null Set 1 x 3 x 3 z 3 head from conditional tree: {'x': [3, <__main__.treeNode instance at 0x000000000B6A26C8>], 'z': [3, <__main__.treeNode instance at 0x000000000B84B248>]} conditional tree for: set(['y']) Null Set 1 x 3 z 3 bigL: ['x', 'z'] finalFrequent Item: set(['y', 'x']) prefixPath: ['x'] condPattBases : x --> {} head from conditional tree: None finalFrequent Item: set(['y', 'z']) prefixPath: ['z', 'x'] condPats: {frozenset(['x']): 3} condPattBases : z --> {frozenset(['x']): 3} Null Set 1 x 3 head from conditional tree: {'x': [3, <__main__.treeNode instance at 0x000000000B6A10C8>]} conditional tree for: set(['y', 'z']) Null Set 1 x 3 bigL: ['x'] finalFrequent Item: set(['y', 'x', 'z']) prefixPath: ['x'] condPattBases : x --> {} head from conditional tree: None finalFrequent Item: set(['x']) prefixPath: ['x', 'z'] condPats: {frozenset(['z']): 3} prefixPath: ['x'] condPattBases : x --> {frozenset(['z']): 3} Null Set 1 z 3 head from conditional tree: {'z': [3, <__main__.treeNode instance at 0x000000000B823908>]} conditional tree for: set(['x']) Null Set 1 z 3 bigL: ['z'] finalFrequent Item: set(['x', 'z']) prefixPath: ['z'] condPattBases : z --> {} head from conditional tree: None finalFrequent Item: set(['z']) prefixPath: ['z'] condPattBases : z --> {} head from conditional tree: None freqItems: [set(['r']), set(['t']), set(['z', 't']), set(['x', 'z', 't']), set(['y', 'x', 'z', 't']), set(['y', 'z', 't']), set(['x', 't']), set(['y', 'x', 't']), set(['y', 't']), set(['s']), set(['x', 's']), set(['y']), set(['y', 'x']), set(['y', 'z']), set(['y', 'x', 'z']), set(['x']), set(['x', 'z']), set(['z'])]
上面是具体的过程。
补充:因为中间涉及到很多递归,所以具体的过程比较麻烦,这里举一个例子.
for basePat in bigL:一行当basePat为’t’时的过程:
对照上面代码的运行结果可以帮助分析,没别的,就是数据结构的东西。
3. 从新闻网站点击流中挖掘新闻报道
书中的这两章有不少精彩的示例,这里只选取比较有代表性的一个——从新闻网站点击流中挖掘热门新闻报道。这是一个很大的数据集,有将近100万条记录(参见扩展阅读:kosarak)。在源数据集合保存在文件kosarak.dat中。该文件中的每一行包含某个用户浏览过的新闻报道。新闻报道被编码成整数,我们可以使用Apriori或FP-growth算法挖掘其中的频繁项集,查看那些新闻ID被用户大量观看到。在2中的代码主函数部分改成如下:
parsedDat = [line.split() for line in open('kosarak.dat').readlines()] # 将数据集导入到列表 initSet=createInitSet(parsedDat) # 对初始集合格式化 # 然后构建FP树,并从中寻找那些至少被10万人浏览过的新闻报道 myFPtree, myHeaderTab = createTree(initSet, 100000) myFreqList = [] # 创建一个空列表来保存这些频繁项集 mineTree(myFPtree, myHeaderTab, 100000, set([]), myFreqList) print 'length:',len(myFreqList) # 查看多少新闻报道或报道集合曾经被10万或者更多的人浏览过 print 'myFreqList',myFreqList # 具体的内容
运行结果:
... condPattBases : 6 --> {} head from conditional tree: None finalFrequent Item: set(['6']) prefixPath: ['6'] condPattBases : 6 --> {} head from conditional tree: None length: 9 myFreqList [set(['1']), set(['1', '6']), set(['3']), set(['11', '3']), set(['11', '3', '6']), set(['3', '6']), set(['11']), set(['11', '6']), set(['6'])]
同时也可以使用其他设置来查看运行结果,比如降低置信度级别。
总结:
FP-growth算法是一种用于发现数据集中频繁模式的有效方法。FP-growth算法利用Apriori原则,执行更快。
FP-growth算法还有一个map-reduce版本的实现,它也很不错,可以扩展到多台机器上运行。Google使用该算法通过遍历大量文本来发现频繁共现词,其做法和我们刚才介绍的例子非常类似。
4. 笔记
(1)Python 字典(Dictionary) get()方法:Python 字典(Dictionary) get() 函数返回指定键的值,如果值不在字典中返回默认值。
get()方法语法: dict.get(key, default=None)
key – 字典中要查找的键
default – 如果指定键的值不存在时,返回该默认值值。
示例:
>>> dict = {'Name': 'Zara', 'Age': 27} >>> dict.get('Age') 27 >>> dict.get('Sex', 0) 0 >>>
(2)
initSet=createInitSet(simDat)的用法:
In [13]: m=['e', 'm', 'q', 's', 't', 'y', 'x', 'z'] In [14]: mm=frozenset(m) In [15]: initSet Out[15]: {frozenset({'e', 'm', 'q', 's', 't', 'x', 'y', 'z'}): 1, frozenset({'n', 'o', 'r', 's', 'x'}): 1, frozenset({'z'}): 1, frozenset({'s', 't', 'u', 'v', 'w', 'x', 'y', 'z'}): 1, frozenset({'p', 'q', 'r', 't', 'x', 'y', 'z'}): 1, frozenset({'h', 'j', 'p', 'r', 'z'}): 1} In [16]: initSet[mm] Out[16]: 1
(3)
orderedItems = [v[0] for v in sorted(localD.items(), key=lambda p: p[1], reverse=True)]的用法:
In [31]: localD={'y': 3, 'x': 4, 's': 3, 'z': 5, 't': 3} In [32]: [v[0] for v in sorted(localD.items(), \ ...: key=lambda p: p[1], reverse=True)] Out[32]: ['z', 'x', 'y', 's', 't'] # rr是针对localD以其value为排序目标进行的降序排列(p[1]) In [33]: rr=sorted(localD.items(), \ ...: key=lambda p: p[1], reverse=True) In [34]: rr Out[34]: [('z', 5), ('x', 4), ('y', 3), ('s', 3), ('t', 3)] # rr是针对localD以其key为排序目标进行的降序排列(p[0]) In [35]: rr=sorted(localD.items(), \ ...: key=lambda p: p[0], reverse=True) In [36]: rr Out[36]: [('z', 5), ('y', 3), ('x', 4), ('t', 3), ('s', 3)] # 得到了rr中每个元组的第一个元素 In [37]: [v[0] for v in rr] Out[37]: ['z', 'y', 'x', 't', 's'] In [38]: [v[1] for v in rr] Out[38]: [5, 3, 4, 3, 3] In [39]: rr[0] Out[39]: ('z', 5) In [40]: type(rr[0]) Out[40]: tuple
(4)
updateTree(items[1::], inTree.children[items[0]], headerTable, count)的用法:
>>> items=['z', 'x', 'y', 's', 't'] >>> items[1::] ['x', 'y', 's', 't'] >>> items[1:] ['x', 'y', 's', 't'] >>> items[2::] ['y', 's', 't'] >>>
参考:https://www.cnblogs.com/qwertWZ/p/4510857.html
相关文章推荐
- 使用FP-Growth算法高效发现频繁项集【zz】
- FP-growth算法高效发现频繁项集
- 构建FP-growth算法高效发现频繁项集
- 【机器学习实战】第12章 使用 FP-growth 算法来高效发现频繁项集
- FP-growth算法高效发现频繁项集(Python代码)
- py2.7《机器学习实战》使用FP-growth算法高效发现频繁项集
- FP-growth算法高效发现频繁项集(Python代码)
- 【机器学习实战】第12章 使用 FP-growth 算法来高效发现频繁项集
- FP-growth算法高效发现频繁项集
- 使用 FP-growth 算法高效挖掘海量数据中的频繁项集
- FP-growth高效频繁项集发现
- 第十五篇:使用 FP-growth 算法高效挖掘海量数据中的频繁项集
- FP-growth算法发现频繁项集(一)——构建FP树
- 使用FP-growth算法发现频繁项集
- FP-growth算法发现频繁项集(二)——发现频繁项集
- 【频繁项集挖掘】FP-growth算法原理
- 《机器学习实战》笔记之十二——使用FP-Growth算法来高效发现频繁项集
- 使用FP-growth算法来高效发现频繁项集
- 【机器学习实战】第12章 使用FP-growth算法来高效发现频繁项集
- 机器学习之使用FP-growth算法来高效发现频繁项集