您的位置:首页 > 数据库

<学习笔记2>数据挖掘原理与运用-sql server2008 数据库

2016-10-22 00:07 423 查看
2016/10/20

第四章

即时模式和脱机模式

即时模式:所有操作会立刻更新到数据库。

原谅我不知道书上的数据是怎么导进去的。这书面向的群众都比较牛逼可能。

107页开始有详细描述了。不错

看得懂很多所以没记笔记了增强记忆了。

命名计算和命名查询的区别

命名计算通常是在现有dsv表后附加一列(不影响实际数据源)

命名查询从图上看是独立出来的一张表。

2016/10/21

处理:利用工具在服务器上训练模型的过程称为处理(训练模型?意思是可以根据结果来进行参数调优吗?)

处理的三种状态:经过处理的,部分经过处理的,没经过处理的。

处理的选项:Process Full(挖掘结构设置时,先处理挖掘结构,然后对挖掘模型进行并行处理。挖掘模型设置时,如挖掘结构未处理则重新读取数据源)

                        Process Default(更改挖掘结构中的挖掘模型,不重新读取数据,而是使用已有数据)

                        Unprocess(删除相关数据,清除缓存,不处理挖掘模型)

                        Process Structure(只对挖掘结构有效,不处理挖掘结构包含的模型。)

                        Process Clear Structure(对挖掘结构使用时,删除缓存的源数据,不处理挖掘模型,下一次处理挖掘结构要重新读取源数据)

混乱。思考下...

整理了下图,理清一点思路,但是还是缺漏很多。

(尴尬。。。没随手保存,网页出了点问题。。记得一些都没了,剩一些照片)





问题:



解决:



问题



最终解决:



10/21 第四章完成。体会:看到后面有了整体思路以后感觉很多东西的作用就一目了然了。读书还得自上而下,先总体后细节。
本章最后介绍了Management studio中数据挖掘的用法,但是感觉并不如analysis services实用,因为并不然脱离analysis services来使用他的所谓集成功能。

2016/10/22
第五章
一个概念,数据配平(过度抽样):什么意思呢,就是假如10000人中只有20人犯罪,则犯罪率是0.2%,而我们的事务频率要求是2%,一种情况下,我们尽量将有犯罪的人的事务提取到我们抽样的表中来达到此目的。另一种情况,因为只有20人犯罪,所以我们不得不缩减我们的抽样人数到1000(减小结果集),以达到2%的事务频率。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
相关文章推荐