您的位置:首页 > 其它

2017.03.24回顾 归一化 标准化 R2 date_format 共线性 系数检验 决策树

2017-03-27 14:40 302 查看
1、as cash,调整了某两类的客户的审批阈值

2、归一化是线性映射到0-1,z-score标准化是(x-μ)/δ,经过转换后均值为0,标准差为1,机器学习实战那本书讲岭回归的时候,标准化的方法是除以方差,这样一来标准化后的标准差就是1/δ

3、线性回归评价指标R2,是回归值平方和除以真实值平方和

4、mysql中datetime截取年月日有一个内置函数,data_format(datetime,'%Y-%m-%d'),可以直接按截取后的进行group by

5、中午思考两个问题多重共线性对于回归的影响,还有就是对于回归系数的检验问题

多重共线性对回归的影响:如果完全共线,不能求解,xTx不可逆

                                             解释性会出现问题,有一个odds ratio之类的值,固定其他变量,变动其中一个变量,风险增大多少云云,如果有另外一个变量受到其影响,解释性上就                                              出现了问题

                                             导致回归系数不稳定(我不理解)

回归系数的检验的原假设是w=0,用到是t检验,具体的t统计量表达式当然也和两个独立样本t检验不同

6、下午正琴姐帮我证明了下,我那个问题,但是提到了矩阵秩的公式,R(AB) <= MIN(R(A),R(B)),这个又需要证明,涉及到线性方程组的方法,我那部分有些概念又记不住了,又需要慢慢看一下

7、后面又复习了一下决策树,ID3决策树节点分裂的度量是信息增益,也就是熵差,而C4.5决策树采用的是信息增益率,CART树是二叉树,分裂度量采用的是gini,ID3只能处理标称型变量,不会重复使用变量进行划分,因为每次分化都是拿某一变量的全部类别分之,C4.5和CART都可以处理数值类变量,也可以重复使用之前的变量
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: