您的位置:首页 > 职场人生

机器学习面试题-索引

2018-02-27 11:00 197 查看
做面试题是一个很好的回顾所学知识的方式。通常,面试官都有着非常扎实的基础和实践经验,提出的问题能更切中算法、模型的本质。通过面试题来检验自己的学习效果,是否对一个问题理解透彻,也能为将来可能的面试提前做一些准备。

本文对知乎专栏BAT机器学习面试1000题下的内容进行了总结索引,方便之后的查阅使用。根据完成情况持续更新。

以下给出专栏中每个链接下的问题,并打上标签。

BAT机器学习面试1000题系列(第1~10题)

1.请简要介绍下SVM

2.请简要介绍下tensorflow的计算图

3.在k-means或kNN,我们常用欧氏距离来计算最近的邻居之间的距离,有时也用曼哈顿距离,请对比下这两种距离的差别。

4.百度2015校招机器学习笔试题

5.关于LR

6.overfitting怎么解决?

7.LR和SVM的联系与区别

8.说说你知道的核函数

9.LR与线性回归的区别与联系

10.请问(决策树、Random Forest、Booting、Adaboot)GBDT和XGBoost的区别是什么?

BAT机器学习面试1000题系列(11-20题)

11.为什么xgboost要用泰勒展开,优势在哪里?

12.xgboost如何寻找最优特征?是又放回还是无放回的呢?

13.谈谈判别式模型和生成式模型?

14.L1和L2的区别(范数)

15.L1和L2正则先验分别服从什么分布

16.CNN最成功的应用是在CV,那为什么NLP和Speech的很多问题也可以用CNN解出来?为什么AlphaGo里也用了CNN?这几个不相关的问题的相似性在哪里?CNN通过什么手段抓住了这个共性?

17.说一下Adaboost,权值更新公式。当弱分类器是Gm时,每个样本的的权重是w1,w2…,请写出最终的决策公式。

18.LSTM结构推导,为什么比RNN好?

19.经常在网上搜索东西的朋友知道,当你不小心输入一个不存在的单词时,搜索引擎会提示你是不是要输入某一个正确的单词,比如当你在Google中输入“Julw”时,系统会猜测你的意图:是不是要搜索“July”。

20.为什么朴素贝叶斯如此“朴素”?

BAT机器学习面试1000题系列(21-30题)

21.请大致对比下plsa和LDA的区别

22.请简要说说EM算法

23.KNN中的K如何选取的?

24.防止过拟合的方法

25.机器学习中,为何要经常对数据做归一化

26.谈谈深度学习中的归一化问题

27.哪些机器学习算法不需要做归一化处理?

28.对于树形结构为什么不需要归一化?

29.数据归一化(或者标准化,注意归一化和标准化不同)的原因

30.请简要说说一个完整机器学习项目的流程

BAT机器学习面试1000题系列(31-35题)

31.逻辑斯特回归为什么要对特征进行离散化

32.new 和 malloc的区别

33.hash 冲突及解决办法

34.下列哪个不属于CRF模型对于HMM和MEMM模型的优势

35.什么是熵

BAT机器学习面试1000题系列(36-40题)

36.熵、联合熵、条件熵、相对熵、互信息的定义

37.什么是最大熵

38.简单说下有监督学习和无监督学习的区别

39.了解正则化么

40.协方差和相关性有什么区别?

BAT机器学习面试1000题系列(41-45题)

41.线性分类器与非线性分类器的区别以及优劣

42.数据的逻辑存储结构(如数组,队列,树等)对于软件开发具有十分重要的影响,试对你所了解的各种存储结构从运行速度、存储效率和适用场合等方面进行简要地分析。

43.什么是分布式数据库?

44.简单说说贝叶斯定理。

45.#include和#include“filename.h”有什么区别?

BAT机器学习面试1000题系列(46-50题)

46.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?

47.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?

48.下面哪种不属于数据预处理的方法?

49.什么是KDD?

50.当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?

BAT机器学习面试1000题系列(51-55题)

51.建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?

52.以下哪种方法不属于特征选择的标准方法

53.请用python编写函数find_string,从文本中搜索并打印内容,要求支持通配符星号和问号。

54.说下红黑树的五个性质

55.简单说下sigmoid激活函数

BAT机器学习面试1000题系列(56-60题)

56.什么是卷积

57.什么是CNN的池化pool层

58.简述下什么是生成对抗网络

59.学梵高作画的原理是啥

60.现在有 a 到 z 26 个元素, 编写程序打印 a 到 z 中任取 3 个元素的组合(比如 打印 a b c ,d y z等)

BAT机器学习面试1000题系列(61-65题)

61.说说梯度下降法

62.梯度下降法找到的一定是下降最快的方向么?

63.牛顿法和梯度下降法有什么不同

64.什么是拟牛顿法(Quasi-Newton Methods)

65.请说说随机梯度下降法的问题和挑战

BAT机器学习面试1000题系列(66-70题)

66.说说共轭梯度法

67.对所有优化问题来说, 有没有可能找到比現在已知算法更好的算法?(No Free Lunch)

68.什么最小二乘法?

69.看你T恤上印着:人生苦短,我用Python,你可否说说Python到底是什么样的语言?你可以比较其他技术或者语言来回答你的问题。

70.Python是如何进行内存管理的?

BAT机器学习面试1000题系列(71-75题)

71.请写出一段Python代码实现删除一个list里面的重复元素

72.编程用sort进行排序,然后从最后一个元素开始判断 a=[1,2,4,2,4,5,7,10,5,5,7,8,9,0,3]

73.Python里面如何生成随机数?

74.说说常见的损失函数

75.简单介绍下logistics回归

BAT机器学习面试1000题系列(76-80题)

76.看你是搞视觉的,熟悉哪些CV框架,顺带聊聊CV最近五年的发展史如何?

77.深度学习在视觉领域有何前沿进展

78.HashMap与HashTable区别

79.在分类问题中,我们经常会遇到正负样本数据量不等的情况,比如正样本为10w条数据,负样本只有1w条数据,以下最合适的处理方法是

80.深度学习是当前很热门的机器学习算法,在深度学习中,涉及到大量的矩阵相乘,现在需要计算三个稠密矩阵A,B,C的乘积ABC,假设三个矩阵的尺寸分别为m∗n,n∗p,p∗q…

BAT机器学习面试1000题系列(81-85题)

81.Nave Bayes是一种特殊的Bayes分类器,特征变量是X,类别标签是C,它的一个假定是

82.关于支持向量机SVM,下列说法错误的是

83.在HMM中,如果已知观察序列和产生观察序列的状态序列,那么可用以下哪种方法直接进行参数估计

84.假定某同学使用Naive Bayesian(NB)分类模型时,不小心将训练数据的两个维度搞重复了,那么关于NB的说法中正确的是

85.以下哪些方法不可以直接来对文本分类?

BAT机器学习面试1000题系列(86-90题)

86.已知一组数据的协方差矩阵P,下面关于主分量说法错误的是

87.kmeans的复杂度

88.关于logistic回归和SVM 不正确的是

89.输入图片大小为200×200,依次经过一层卷积(kernel size 5×5,padding 1,stride 2),pooling(kernel size 3×3,padding 0,stride 1),又一层卷积(kernel size 3×3,padding 1,stride 1)之后,输出特征图大小为

90.影响聚类算法结果的主要因素有

BAT机器学习面试1000题系列(91-95题)

91.模式识别中,马式距离较之于欧式距离的优点是

92.影响基本K-均值算法的主要因素有

93.在统计模式分类问题中,当先验概率未知时,可以使用

94.如果以特征向量的相关系数作为模式相似性测度,则影响聚类算法结果的主要因素有

95.欧式距离具有;马式距离具有

BAT机器学习面试1000题系列(96-100题)

96.你有哪些deep learning(rnn、cnn)调参的经验?

97.简单说说RNN的原理

98.什么是RNN?

99.RNN是怎么从单层网络一步一步构造的的?

100.RNN中只能采用tanh而不是ReLu作为激活函数么?

BAT机器学习面试1000题系列(101-105题)

101.深度学习(CNN RNN Attention)解决大规模文本分类问题

102.如何解决RNN梯度爆炸和弥散的问题的?

103.如何提高深度学习的性能

104.RNN、LSTM、GRU区别

105.当机器学习性能遭遇瓶颈时,你会如何优化的?

BAT机器学习面试1000题系列(106-110题)

106.做过什么样的机器学习项目?比如如何从零构建一个推荐系统

107.什么样的资料集不适合用深度学习?

108.广义线性模型是怎被应用在深度学习中?

109.准备机器学习面试应该了解哪些理论知识

110.标准化与归一化的区别?

BAT机器学习面试1000题系列(111-115题)

111.随机森林如何处理缺失值

112.随机森林如何评估特征重要性

113.优化Kmeans

114.KMeans初始类簇中心点的选取

115.解释对偶的概念

BAT机器学习面试1000题系列(116-120题)

116.如何进行特征选择?

117.数据预处理

118.你知道有哪些数据处理和特征工程的处理?

119.简单说说特征工程

120.请对比下Sigmoid、Tanh、ReLu这三个激活函数

BAT机器学习面试1000题系列(121-125题)

121.Sigmoid、Tanh、ReLu这三个激活函数有什么缺点或不足,有没改进的激活函数

122.怎么理解决策树、xgboost能处理缺失值?而有的模型(svm)对缺失值比较敏感?

123.为什么引入非线性激励函数?

124.请问人工神经网络中为什么ReLu要好过于tanh和sigmoid function?

125.为什么LSTM模型中既存在sigmoid又存在tanh两种激活函数?

BAT机器学习面试1000题系列(126-130题)

126.衡量分类器的好坏。

127.机器学习和统计里面的auc的物理意义是什么?

128.观察增益gain, alpha和gamma越大,增益越小?

129.什么造成梯度消失问题? 推导一下

130.什么是梯度消失和梯度爆炸?

持续更新ing…
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: