您的位置：首页 > 职场人生

BAT题库 | 机器学习面试1000题系列（第231~235题）

2017-11-28 00:00 591 查看

231.在一个n维的空间中，最好的检测outlier(离群点)的方法是：

A. 作正态分布概率图

B. 作盒形图

C. 马氏距离

D. 作散点图

答案：C

马氏距离是基于卡方分布的，度量多元outlier离群点的统计方法。

更多请详见：http://eurekastatistics.com/using-mahalanobis-distance-to-find-outliers/和http://blog.csdn.net/v_july_v/article/details/8203674

232.对数几率回归（logistics regression）和一般回归分析有什么区别？

A. 对数几率回归是设计用来预测事件可能性的

B. 对数几率回归可以用来度量模型拟合程度

C. 对数几率回归可以用来估计回归系数

D. 以上所有

答案：D

A: 对数几率回归其实是设计用来解决分类问题的

B: 对数几率回归可以用来检验模型对数据的拟合度

C: 虽然对数几率回归是用来解决分类问题的，但是模型建立好后，就可以根据独立的特征，估计相关的回归系数。就我认为，这只是估计回归系数，不能直接用来做回归模型。

233.bootstrap数据是什么意思？（提示：考“bootstrap”和“boosting”区别）

A. 有放回地从总共M个特征中抽样m个特征

B. 无放回地从总共M个特征中抽样m个特征

C. 有放回地从总共N个样本中抽样n个样本

D. 无放回地从总共N个样本中抽样n个样本

答案：C

234.“过拟合”只在监督学习中出现，在非监督学习中，没有“过拟合”，这是：

A. 对的

B. 错的

答案：B

我们可以评估无监督学习方法通过无监督学习的指标，如：我们可以评估聚类模型通过调整兰德系数（adjusted rand score）

235.对于k折交叉验证, 以下对k的说法正确的是 :

A. k越大, 不一定越好, 选择大的k会加大评估时间

B. 选择更大的k, 就会有更小的bias (因为训练集更加接近总数据集)

C. 在选择k时, 要最小化数据集之间的方差

D. 以上所有

答案：D

k越大, bias越小, 训练时间越长. 在训练时, 也要考虑数据集间方差差别不大的原则. 比如, 对于二类分类问题, 使用2-折交叉验证, 如果测试集里的数据都是A类的, 而训练集中数据都是B类的, 显然, 测试效果会很差.

如果不明白bias和variance的概念, 参考:

Gentle Introduction to the Bias-Variance Trade-Off in Machine Learning

Understanding the Bias-Variance Tradeoff

往期题目：

BAT机器学习面试1000题系列（第1~60题）

BAT机器学习面试1000题系列（第61~100题）

BAT机器学习面试1000题系列（第101~200题）

BAT机器学习面试1000题系列（第201~205题）

BAT机器学习面试1000题系列（第206~210题）

BAT机器学习面试1000题系列（第211~215题）

BAT机器学习面试1000题系列（第216~220题）

BAT机器学习面试1000题系列（第221~225题）

BAT机器学习面试1000题系列（第226~230题）

课程咨询｜微信：julyedukefu

七月热线：010-82712840

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航