您的位置：首页 > 数据库

<学习笔记2>数据挖掘原理与运用-sql server2008 数据库

2016-10-22 00:07 423 查看

2016/10/20

第四章

即时模式和脱机模式

即时模式：所有操作会立刻更新到数据库。

原谅我不知道书上的数据是怎么导进去的。这书面向的群众都比较牛逼可能。

107页开始有详细描述了。不错

看得懂很多所以没记笔记了增强记忆了。

命名计算和命名查询的区别

命名计算通常是在现有dsv表后附加一列（不影响实际数据源）

命名查询从图上看是独立出来的一张表。

2016/10/21

处理：利用工具在服务器上训练模型的过程称为处理（训练模型？意思是可以根据结果来进行参数调优吗？）

处理的三种状态：经过处理的，部分经过处理的，没经过处理的。

处理的选项：Process Full（挖掘结构设置时，先处理挖掘结构，然后对挖掘模型进行并行处理。挖掘模型设置时，如挖掘结构未处理则重新读取数据源）

Process Default（更改挖掘结构中的挖掘模型，不重新读取数据，而是使用已有数据）

Unprocess（删除相关数据，清除缓存，不处理挖掘模型）

Process Structure（只对挖掘结构有效，不处理挖掘结构包含的模型。）

Process Clear Structure（对挖掘结构使用时，删除缓存的源数据，不处理挖掘模型，下一次处理挖掘结构要重新读取源数据）

混乱。思考下...

整理了下图，理清一点思路，但是还是缺漏很多。

（尴尬。。。没随手保存，网页出了点问题。。记得一些都没了，剩一些照片）

问题：

解决：

问题

最终解决：

10/21 第四章完成。体会：看到后面有了整体思路以后感觉很多东西的作用就一目了然了。读书还得自上而下，先总体后细节。
本章最后介绍了Management studio中数据挖掘的用法，但是感觉并不如analysis services实用，因为并不然脱离analysis services来使用他的所谓集成功能。

2016/10/22
第五章
一个概念，数据配平（过度抽样）：什么意思呢，就是假如10000人中只有20人犯罪，则犯罪率是0.2%，而我们的事务频率要求是2%，一种情况下，我们尽量将有犯罪的人的事务提取到我们抽样的表中来达到此目的。另一种情况，因为只有20人犯罪，所以我们不得不缩减我们的抽样人数到1000（减小结果集），以达到2%的事务频率。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： data mining sql server2008 数据分析数据挖掘

相关文章推荐

新的分享

章节导航