您的位置:首页 > 其它

Spark MLLib从入门实战小例子

2016-11-16 09:48 190 查看
本系列目录如下:
数据类型
基本统计
summary statistics(概括统计)
correlations(相关性系数)
tratified sampling(分层取样)
hypothesis testing(假设检验)
random data generation(随机数生成)
Kernel density estimation(核密度估计)

协同过滤
交换最小二乘

分类和回归
线性模型
SVMs(支持向量机)
逻辑回归
线性回归

朴素贝叶斯
决策树
组合树
随机森林
梯度提升树

保序回归

聚类
k-means||算法
GMM(高斯混合模型)
PIC(快速迭代聚类)
LDA(隐式狄利克雷分布)
二分k-means算法
流式k-means算法

最优化算法
梯度下降算法
L-BFGS(限制内存BFGS)
NNLS(非负最小二乘)

降维
EVD(特征值分解)
SVD(奇异值分解)
PCA(主成分分析)

特征抽取和转换
特征抽取
TF-IDF
Word2Vec
CountVectorizer

特征转换
Tokenizer
StopWordsRemover
n-gram
Binarizer
PolynomialExpansion
Discrete Cosine Transform (DCT)
StringIndexer
IndexToString
OneHotEncoder
VectorIndexer
Normalizer(规则化)
StandardScaler(特征缩放)
MinMaxScaler
MaxAbsScaler
Bucketizer
ElementwiseProduct(元素智能乘积)
SQLTransformer
VectorAssembler
QuantileDiscretizer

特征选择
VectorSlicer
RFormula
ChiSqSelector(卡方选择器)

转载地址:http://www.qqcourse.com/forum.php?mod=viewthread&tid=3291&_dsign=6c28f52b
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐