您的位置:首页 > 职场人生

BAT题库 | 机器学习面试1000题系列(第231~235题)

2017-11-28 00:00 591 查看



231.在一个n维的空间中, 最好的检测outlier(离群点)的方法是:

A. 作正态分布概率图

B. 作盒形图

C. 马氏距离

D. 作散点图

答案:C

马氏距离是基于卡方分布的,度量多元outlier离群点的统计方法。

更多请详见:http://eurekastatistics.com/using-mahalanobis-distance-to-find-outliers/和http://blog.csdn.net/v_july_v/article/details/8203674

232.对数几率回归(logistics regression)和一般回归分析有什么区别?

A. 对数几率回归是设计用来预测事件可能性的

B. 对数几率回归可以用来度量模型拟合程度

C. 对数几率回归可以用来估计回归系数

D. 以上所有

答案:D

A: 对数几率回归其实是设计用来解决分类问题的

B: 对数几率回归可以用来检验模型对数据的拟合度

C: 虽然对数几率回归是用来解决分类问题的,但是模型建立好后,就可以根据独立的特征,估计相关的回归系数。就我认为,这只是估计回归系数,不能直接用来做回归模型。

233.bootstrap数据是什么意思?(提示:考“bootstrap”和“boosting”区别)

A. 有放回地从总共M个特征中抽样m个特征

B. 无放回地从总共M个特征中抽样m个特征

C. 有放回地从总共N个样本中抽样n个样本

D. 无放回地从总共N个样本中抽样n个样本

答案:C

234.“过拟合”只在监督学习中出现,在非监督学习中,没有“过拟合”,这是:

A. 对的

B. 错的

答案:B

我们可以评估无监督学习方法通过无监督学习的指标,如:我们可以评估聚类模型通过调整兰德系数(adjusted rand score)

235.对于k折交叉验证, 以下对k的说法正确的是 :

A. k越大, 不一定越好, 选择大的k会加大评估时间

B. 选择更大的k, 就会有更小的bias (因为训练集更加接近总数据集)

C. 在选择k时, 要最小化数据集之间的方差

D. 以上所有

答案:D

k越大, bias越小, 训练时间越长. 在训练时, 也要考虑数据集间方差差别不大的原则. 比如, 对于二类分类问题, 使用2-折交叉验证, 如果测试集里的数据都是A类的, 而训练集中数据都是B类的, 显然, 测试效果会很差.

如果不明白bias和variance的概念, 参考:

Gentle Introduction to the Bias-Variance Trade-Off in Machine Learning

Understanding the Bias-Variance Tradeoff

往期题目:

BAT机器学习面试1000题系列(第1~60题)

BAT机器学习面试1000题系列(第61~100题)

BAT机器学习面试1000题系列(第101~200题)

BAT机器学习面试1000题系列(第201~205题)

BAT机器学习面试1000题系列(第206~210题)

BAT机器学习面试1000题系列(第211~215题)

BAT机器学习面试1000题系列(第216~220题)

BAT机器学习面试1000题系列(第221~225题)

BAT机器学习面试1000题系列(第226~230题)



课程咨询|微信:julyedukefu

七月热线:010-82712840
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: