您的位置：首页 > 其它

机器学习习题（16）

2018-02-22 13:05 246 查看

在最新的一期中，我们主要介绍了交叉验证的相关知识、t-SNE的相关知识、线性回归的相关知识、可决系数的相关知识、相关系数的相关知识。

1.下面的交叉验证方法 :

i. 有放回的Bootstrap方法

ii. 留一个测试样本的交叉验证

iii. 5折交叉验证

iv. 重复两次的5折交叉验证

当样本是1000时，下面执行时间的顺序，正确的是：

A. i > ii > iii > iv

B. ii > iv > iii > i

C. iv > i > ii > iii

D. ii > iii > iv > i

参考答案：（B）

解析：

Bootstrap方法是传统的随机抽样，验证一次的验证方法，只需要训练1个模型，所以时间最少。

留一个测试样本的交叉验证，需要n次训练过程（n是样本个数），这里，需要训练1000个模型。

5折交叉验证需要训练5个模型。

重复两次的5折交叉验证，需要训练10个模型。

2.变量选择是用来选择最好的判别器子集，如果要考虑模型效率，我们应该做哪些变量选择的考虑？ :

1.多个变量其实有相同的用处

2.变量对于模型的解释有多大作用

3.特征携带的信息

4.交叉验证

A. 1 和 4

B. 1, 2 和 3

C. 1,3 和 4

D. 以上所有

参考答案：（C）

解析：注意，这题的题眼是考虑模型效率，所以不要考虑选项B。

3.对于线性回归模型，包括附加变量在内，以下的可能正确的是 :

1.R-Squared 和 Adjusted R-squared都是递增的

2.R-Squared 是常量的，Adjusted R-squared是递增的

3.R-Squared 是递减的， Adjusted R-squared 也是递减的

4.R-Squared 是递减的， Adjusted R-squared是递增的

A. 1 和 2

B. 1 和 3

C. 2 和 4

D. 以上都不是

参考答案：（D）

解析：R-Squared不能决定系数估计和预测偏差，这就是为什么我们要估计残差图。但是，R-Squared有R-Squared和predicted R-Squared所没有的问题。每次为模型加入预测器，R-Squared递增或者不变。

这里R-Squared成为可决系数，也被称为R2系数，也被称为拟合优度。说到拟合优度一般理解为回归直线与观测值的一个拟合程度。

如果样本回归线对样本观测值拟合程度越好，各样本观测点与回归线靠得越近，由样本回归做出解释的离差平方和与总离差平方和越相近；反之，拟合程度越差，相差越大。可决系数的取值范围在0到1之间，它是一个非负统计量。

但是，一般说来，较高的R2数值比较低的R2数值要好。R2也不能反映误差。就比如你的努力程度和历次考试成绩，虽然越努力成绩越好，但是你不能保证自己没有失误啊。这个失误就是残差，但是失误肯定不是主要部分，所以R2还是很大的。

更多关于可决系数和校正可决系数，可参见《可决系数百度百科》与《可决系数与校正可决系数》和《线性回归中的若干问题》。

4.对于下面三个模型的训练情况，下面说法正确的是 :

1.第一张图的训练错误与其余两张图相比，是最大的

2.最后一张图的训练效果最好，因为训练错误最小

3.第二张图比第一和第三张图鲁棒性更强，是三个里面表现最好的模型

4.第三张图相对前两张图过拟合了

5.三个图表现一样，因为我们还没有测试数据集

A. 1 和 3

B. 1 和 3

C. 1, 3 和 4

D. 5

参考答案：C

解析：其实这个图是非常经典的图，也就是说第一张图为欠拟合，第二张图是正常的，第三张图是过拟合。从这方面讲C是对的。

但是其实如果从严格意义上讲，如果没有测试集是没有办法说明是否是过拟合还是欠拟合的。但是我们有一个假设，认为我们的采样已经足够，训练样本大致等同实际分布，也就是说即使是测试样本，也应当大致与训练样本同分布。那么这样这题就是C了。

5.对于线性回归，我们应该有以下哪些假设？

1.找到利群点很重要, 因为线性回归对利群点很敏感

2.线性回归要求所有变量必须符合正态分布

3.线性回归假设数据没有多重线性相关性

A. 1 和 2

B. 2 和 3

C. 1,2 和 3

D. 以上都不是

参考答案：（D）

解析：

离群点要着重考虑，第一点是对的。

不是必须的，当然如果是正态分布，训练效果会更好。

有少量的多重线性相关性是可以的，但是我们要尽量避免。

所以真要选，应当是1。

6.我们注意变量间的相关性。在相关矩阵中搜索相关系数时, 如果我们发现3对变量的相关系数是(Var1 和Var2, Var2和Var3, Var3和Var1)是-0.98, 0.45, 1.23 . 我们可以得出什么结论？

1.Var1和Var2是非常相关的

2.因为Var和Var2是非常相关的, 我们可以去除其中一个

3.Var3和Var1的1.23相关系数是不可能的

A. 1 and 3

B. 1 and 2

C. 1,2 and 3

D. 1

参考答案：（C）

解析：

Var1和Var2的相关系数是负的，所以这是多重线性相关，我们可以考虑去除其中一个。

一般的，如果相关系数大于0.7或者小于-0.7，是高相关的。

相关系数的范围应该是[-1,1]。

关于相关系数的详细介绍参见《相关系数百度百科》与《协方差与相关系数》。

7.如果在一个高度非线性并且复杂的一些变量中“一个树模型可比一般的回归模型效果更好”是：

A. 对的

B. 错的

参考答案：（A）

解析：树模型可以处理非线性模型，并且树模型的区分度更好一些。想象一下决策树和LR。

8.下面对集成学习模型中的弱学习者描述错误的是？

A. 他们经常不会过拟合

B. 他们通常带有高偏差，所以其并不能解决复杂学习问题

C. 他们通常会过拟合

参考答案：（C）

解析：弱学习者是问题的特定部分。所以他们通常不会过拟合，这也就意味着弱学习者通常拥有低方差和高偏差。

9.下面哪个/些选项对 K 折交叉验证的描述是正确的？

1.增大 K 将导致交叉验证结果时需要更多的时间

2.更大的 K 值相比于小 K 值将对交叉验证结构有更高的信心

3.如果 K=N，那么其称为留一交叉验证，其中 N 为验证集中的样本数量

A. 1 和 2

B. 2 和 3

C. 1 和 3

D. 1、2 和 3

参考答案：（D)

解析：大 K 值意味着对过高估计真实预期误差（训练的折数将更接近于整个验证集样本数）拥有更小的偏差和更多的运行时间（并随着越来越接近极限情况：留一交叉验证）。我们同样在选择 K 值时需要考虑 K 折准确度和方差间的均衡。

10.最出名的降维算法是 PAC 和 t-SNE。将这两个算法分别应用到数据「X」上，并得到数据集「X_projected_PCA」，「X_projected_tSNE」。下面哪一项对「X_projected_PCA」和「X_projected_tSNE」的描述是正确的？（B）

A. X_projected_PCA 在最近邻空间能得到解释

B. X_projected_tSNE 在最近邻空间能得到解释

C. 两个都在最近邻空间能得到解释

D. 两个都不能在最近邻空间得到解释

参考答案：（B）

解析：t-SNE 算法考虑最近邻点而减少数据维度。所以在使用 t-SNE 之后，所降的维可以在最近邻空间得到解释。但 PCA 不能。

我们之前降到的LDA或者PCA都是线性降维，而t-SNE则是非线性降维，它是在SNE的基础上，在低维度使用t分布替代高斯分布来解决长尾问题，于2014年提出，其可视化效果远胜于其他算法（在识别手写体数字的基础上）。是一个非常新的算法。

关于t-SNE算法的更多解释参见《从SNE到t-SNE再到LargeVis》与《比PCA更高级的算法》。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 交叉验证 t-SNE降维线性回归可决系数相关系数

相关文章推荐

新的分享

章节导航