您的位置:首页 > 大数据

大数据分析经验总结

2016-07-01 17:28 225 查看
大数据分析到底需要多少种机器学习的方法呢?围绕着这个问题,机器学习领域多年得出的一些经验规律。

 1.大数据分析性能的好坏,也就是说机器学习预测的准确率,与使用的学习算法、问题的性质、数据集的特性包括数据规模、数据特征等都有关系。

 2.一般地,Ensemble方法包括Random Forest和AdaBoost、SVM、Logistic
Regression 分类准确率最高。

 3.没有一种方法可以应对所有问题。Random Forest、SVM等方法一般性能最好,但不是在什么条件下性能都最好。

 4.不同的方法,当数据规模小的时候,性能往往有较大差异,但当数据规模增大时,性能都会逐渐提升且差异逐渐减小。也就是说,在大数据条件下,什么方法都能work的不错。

 5.对于简单问题,Random Forest、SVM等方法基本可行,但是对于复杂问题,比如语音识别、图像识别,最近流行的深度学习方法往往效果更好。深度学习本质是复杂模型学习,是今后研究的重点。

6. 在实际应用中,要提高分类的准确率,选择特征比选择算法更重要。好的特征会带来更好的分类结果,而好的特征的提取需要对问题的深入理解。

总结:数据决定分析结果的上限,而不同算法只是决定了逼近上限的程度。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息