您的位置:首页 > 其它

BOW(Bag of Words)词袋模型理解

2015-05-30 00:04 190 查看
基本词袋模型:

词袋模型的提出是为了解决文档分类,例如一个文员收到一个任务:把手里的共计10M的公司不同部门的相关工作文件进行归档分类,分别为财务部、公关部、市场部、管理层等四个部门,那么应该怎么做呢?

具体方法为:假设财务部的文件用“金额数目”表示,公关部用“客户数字”表示,市场部用“竞争对手”表示,管理层用“上市情况”表示。那么,我们依次将所有字体组合得到“金额数目客户字竞争对手上市情况”中字体依次用数字表示得到“0123456789abcde”一个15维的向量,那么不同部门文件分别可以表示为“111100000000000”、“001011100000000”等不同分布的特征向量,这样经过对训练数据进行特征表示方法学习,得到特征表示模型,输入新的文件时可以得到相应的特征表示,合理设计分类器既可以快速准确的将该文档进行归类。

那么,当将用于文档检索的磁带模型转移到视觉任务中需要怎么做呢?

在视觉分类系统中,由于图像的特征并非像文档中能够直接对单词进行赋值从而得到特征向量的形式一样直接对图像的像素点进行特征表示(因为最基本的图像处理任务的图片尺寸也得28*28吧,当然数字没这么具体但是意会就可以),因此需要经过四个步骤:特征检测-特征表示-词汇表生成-分类器设计,一般的特征表示部分大都采用局部不变特征表示方法-SIFT特征表示法进行特征的表示。例如输入训练图像为2幅,那么每一幅图像提取128维的SIFT特征向量后融合得到共计256维特征向量,之后采用K-means方法对得到的特征向量进行聚类得到真正无冗余的特征表示视觉词袋,随后结合视觉词袋和词频概念得到每个待分类图像的词袋直方图模型对图像进行表示(如图1所示),之后依次为训练分类器、对新输入图像进行分类。


图 1. 词袋模型直方图表示实例

关于词袋模型的介绍就到这里,大家如果有什么疑问可以留言哦,具体代码资料可以到这里(http://www.csdn.net/tag/词袋模型)下载。

接下来回顾一下今天英语课学的那些让人头晕的否定句翻译:

实例1、The motor stopped not because the electricity was off; The motor didn't stop because the electricity was off (结果是这两个句子是一个意思)发动机并没有因为停电的原因而停止工作;

实例2、这两个同学都不是山东人+这两个同学并不都是山东人

Neither of the students is from SD+Both students are from SD;

实例3、其它相关例子

The bird is an unusual winter visitor to Britain;

The relay acted vainly due to the negligible current;

All that glitters is not gold;

。。。。。。

总结:1、not和becuase同时出现无论not在什么位置译文相同;

2、cannot too等情态动词和not一起结合too 表肯定;

3、all和every一起和not出现表示并不都,而表示全部都不一般为neither和none等全否定型词语;

4、both...not 不能同时 But you see, we both can't go.

5、it be adj n that negativeword句型翻译时翻译成简单

就写这点,明天继续,哈哈,Good beginning is the half of success,想想还有些小鸡冻,我居然都成功了一半,准备做美梦去。。。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: