您的位置:首页 > 编程语言

机器学习实战代码 第三章3-1注释

2018-01-24 17:36 253 查看
# -*- coding: cp936 -*-
from math import log

def createDataSet():
         dataSet=[[1,1,'yes'],
                  [1,1,'yes'],
                  [1,0,'no'],
                  [0,1,'no'],
                  [0,1,'no']]
         labels=['no surfacing','flippers']
         return dataSet,labels

def calShannonEnt(dataset):
         numEntries=len(dataset)#计算数据集中实例的总数
         labelCounts={}
         for featVec in dataSet:
                  currentLabel=featVec[-1]
                  #统计当前类别出现的次数,利用到字典的自动添加功能
                  if currentLabel not in labelCounts.keys():
                           labelCounts[currentLabel]=0
                  labelCounts[currentLabel]+=1
                  #能否替换为下面的这一行代码?yes,u can
                  #labelCounts[currentLabel]=labelCounts.get(currentLabel,0)+1
                  print labelCounts

         shannonEnt=0.0
         for key in labelCounts:
                  prob=float(labelCounts[key])/numEntries
                  shannonEnt-=prob*log(prob,2)

labelCounts是这样子的:

>>> import trees
>>> dataSet,labels=createDataSet
>>> calShannonEnt(dataSet)
{'yes': 1}
{'yes': 2}
{'yes': 2, 'no': 1}
{'yes': 2, 'no': 2}
{'yes': 2, 'no': 3}#labelCounts
0.9709505944546686#香农熵
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: