关于LSA的相关学习---短文本聚类涉及到的知识,一种主题模型(原载于我的百度空间)
2013-08-20 22:45
651 查看
豆瓣上有一篇简单介绍LSA和PLSA的文章
链接http://www.douban.com/note/63275934/,我也已经保存到本地了
【Latent semantic analysis】
LSA最初是用在语义检索上,为了解决一词多义和一义多词的问题:
1.一词多义: 美女和PPMM表示相同的含义,但是单纯依靠检索词“美女”来检索文档,很可能丧失掉那些包含“PPMM”的文档。
2.一义多词:如果输入检索词是多个检索词组成的一个小document,例如“清澈 孩子”,那我们就知道这段文字主要想表达concept是和道德相关的,不应该将“春天到了,小河多么的清澈”这样的文本包含在内。
为了能够解决这个问题,需要将词语(term)中的concept提取出来,建立一个词语和概念的关联关系(t-c relationship),这样一个文档就能表示成为概念的向量。这样输入一段检索词之后,就可以先将检索词转换为概念,再通过概念去匹配文档。
在实际实现这个思想时,LSA使用了SVD分解的数学手段。我们可以将document and term表示成为矩阵的形式。用x表示term-document matrix,通过SVD分解X可以表示为
x=T*S*D 。
S为对角矩阵,对角元素表示对应概念的有效程度。其实在实际生活当中概念就是具体事物的抽象,被人们所接受和使用的概念都是能够很有效概念。LSA算法也和实际生活中一样,需要提出掉有效程度低的概念,保留有效程度高的概念。
T为正交矩阵,行向量表示term,列向量表示概念
D为正交矩阵,行向量表示概念,列向量表示document
【PLSA】
PLSA和LSA基础思想是相同的,都是希望能从term中抽象出概念,但是具体实现的方法不相同。PLSA使用了概率模型,并且使用EM算法来估计P(t|c)和P(c|d)矩阵,详细算法可参考下面列举的相关文献。
相关文献:
一篇介绍LSA非常好的note
Latent semantic analysis note by zhouli
一篇介绍PLSA的note by hong liangjie
Notes on Probabilistic Latent Semantic Analysis (PLSA)
PLSA wiki 上面有PLSA的creator Hofmann的原始文章
根据这篇文章的相关文献找到了
Latent semantic analysis note:/article/8046646.html
以及
SVD奇异值分解:/article/8046647.html
这两篇文章都很不错,需要认真研究
链接http://www.douban.com/note/63275934/,我也已经保存到本地了
【Latent semantic analysis】
LSA最初是用在语义检索上,为了解决一词多义和一义多词的问题:
1.一词多义: 美女和PPMM表示相同的含义,但是单纯依靠检索词“美女”来检索文档,很可能丧失掉那些包含“PPMM”的文档。
2.一义多词:如果输入检索词是多个检索词组成的一个小document,例如“清澈 孩子”,那我们就知道这段文字主要想表达concept是和道德相关的,不应该将“春天到了,小河多么的清澈”这样的文本包含在内。
为了能够解决这个问题,需要将词语(term)中的concept提取出来,建立一个词语和概念的关联关系(t-c relationship),这样一个文档就能表示成为概念的向量。这样输入一段检索词之后,就可以先将检索词转换为概念,再通过概念去匹配文档。
在实际实现这个思想时,LSA使用了SVD分解的数学手段。我们可以将document and term表示成为矩阵的形式。用x表示term-document matrix,通过SVD分解X可以表示为
x=T*S*D 。
S为对角矩阵,对角元素表示对应概念的有效程度。其实在实际生活当中概念就是具体事物的抽象,被人们所接受和使用的概念都是能够很有效概念。LSA算法也和实际生活中一样,需要提出掉有效程度低的概念,保留有效程度高的概念。
T为正交矩阵,行向量表示term,列向量表示概念
D为正交矩阵,行向量表示概念,列向量表示document
【PLSA】
PLSA和LSA基础思想是相同的,都是希望能从term中抽象出概念,但是具体实现的方法不相同。PLSA使用了概率模型,并且使用EM算法来估计P(t|c)和P(c|d)矩阵,详细算法可参考下面列举的相关文献。
相关文献:
一篇介绍LSA非常好的note
Latent semantic analysis note by zhouli
一篇介绍PLSA的note by hong liangjie
Notes on Probabilistic Latent Semantic Analysis (PLSA)
PLSA wiki 上面有PLSA的creator Hofmann的原始文章
根据这篇文章的相关文献找到了
Latent semantic analysis note:/article/8046646.html
以及
SVD奇异值分解:/article/8046647.html
这两篇文章都很不错,需要认真研究
相关文章推荐
- 基于主题模型的文本聚类分类
- 关于Android初学者的学习线路的相关知识
- Unity学习日常问题记录九-关于Lookat与模型坐标系的相关的问题以及父子物体的刚体
- WIN32汇编: 5.学习更多的关于文本的知识
- 关于Scroller的学习及相关的知识笔记get
- 主题模型(Topic Model)相关学习资料与文献
- 关于主题模型的学习(1)
- 关于《深入推荐引擎相关算法 - 聚类》文章学习感悟
- 关于LSA(Latent Semantic Analysis)主题模型的个人理解
- 关于并行查询调优涉及的相关知识[收集中]
- 测试HTML5的小测试(答对8道或更多 – 你对这些知识了解的相当不错。 6-7道正确 – 对于答错的那几道题,你需要做进一步学习,包括这几道题涉及的相关知识领域。 少于5道 – 你需要努力了。)
- 【大数据部落】基于LDA主题模型聚类的商品评论文本挖掘
- 关于struts1的相关知识学习
- iOS开发:关于UILabel、UIButton、UITextField文字下划线的设置方法(涉及到富文本的知识)
- 看了水兄的关于字符串处理的2005方法,很好,就是没看懂,最后把相关知识帖了,放进我的博客里,供自己和大家学习。
- 关于《一种鱼眼图象到透视投影图象的变换模型》
- 关于学习的过程:痛并快乐着是一种收获
- java学习(5) java 数组相关知识
- 【Scikit-Learn 中文文档】模型选择:选择估计量及其参数 - 关于科学数据处理的统计学习教程 - scikit-learn 教程 | ApacheCN
- A Model of Learning Objectives[一种学习目标模型]