您的位置：首页 > 大数据

大数据分析经验总结

2016-07-01 17:28 225 查看

大数据分析到底需要多少种机器学习的方法呢？围绕着这个问题，机器学习领域多年得出的一些经验规律。

1.大数据分析性能的好坏，也就是说机器学习预测的准确率，与使用的学习算法、问题的性质、数据集的特性包括数据规模、数据特征等都有关系。

2.一般地，Ensemble方法包括Random Forest和AdaBoost、SVM、Logistic
Regression 分类准确率最高。

3.没有一种方法可以应对所有问题。Random Forest、SVM等方法一般性能最好，但不是在什么条件下性能都最好。

4.不同的方法，当数据规模小的时候，性能往往有较大差异，但当数据规模增大时，性能都会逐渐提升且差异逐渐减小。也就是说，在大数据条件下，什么方法都能work的不错。

5.对于简单问题，Random Forest、SVM等方法基本可行，但是对于复杂问题，比如语音识别、图像识别，最近流行的深度学习方法往往效果更好。深度学习本质是复杂模型学习，是今后研究的重点。

6. 在实际应用中，要提高分类的准确率，选择特征比选择算法更重要。好的特征会带来更好的分类结果，而好的特征的提取需要对问题的深入理解。

总结：数据决定分析结果的上限，而不同算法只是决定了逼近上限的程度。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 大数据分析商业价值机器学习

相关文章推荐

新的分享

章节导航