BOW(Bag of Words)词袋模型理解
2015-05-30 00:04
190 查看
基本词袋模型:
词袋模型的提出是为了解决文档分类,例如一个文员收到一个任务:把手里的共计10M的公司不同部门的相关工作文件进行归档分类,分别为财务部、公关部、市场部、管理层等四个部门,那么应该怎么做呢?
具体方法为:假设财务部的文件用“金额数目”表示,公关部用“客户数字”表示,市场部用“竞争对手”表示,管理层用“上市情况”表示。那么,我们依次将所有字体组合得到“金额数目客户字竞争对手上市情况”中字体依次用数字表示得到“0123456789abcde”一个15维的向量,那么不同部门文件分别可以表示为“111100000000000”、“001011100000000”等不同分布的特征向量,这样经过对训练数据进行特征表示方法学习,得到特征表示模型,输入新的文件时可以得到相应的特征表示,合理设计分类器既可以快速准确的将该文档进行归类。
那么,当将用于文档检索的磁带模型转移到视觉任务中需要怎么做呢?
在视觉分类系统中,由于图像的特征并非像文档中能够直接对单词进行赋值从而得到特征向量的形式一样直接对图像的像素点进行特征表示(因为最基本的图像处理任务的图片尺寸也得28*28吧,当然数字没这么具体但是意会就可以),因此需要经过四个步骤:特征检测-特征表示-词汇表生成-分类器设计,一般的特征表示部分大都采用局部不变特征表示方法-SIFT特征表示法进行特征的表示。例如输入训练图像为2幅,那么每一幅图像提取128维的SIFT特征向量后融合得到共计256维特征向量,之后采用K-means方法对得到的特征向量进行聚类得到真正无冗余的特征表示视觉词袋,随后结合视觉词袋和词频概念得到每个待分类图像的词袋直方图模型对图像进行表示(如图1所示),之后依次为训练分类器、对新输入图像进行分类。
图 1. 词袋模型直方图表示实例
关于词袋模型的介绍就到这里,大家如果有什么疑问可以留言哦,具体代码资料可以到这里(http://www.csdn.net/tag/词袋模型)下载。
接下来回顾一下今天英语课学的那些让人头晕的否定句翻译:
实例1、The motor stopped not because the electricity was off; The motor didn't stop because the electricity was off (结果是这两个句子是一个意思)发动机并没有因为停电的原因而停止工作;
实例2、这两个同学都不是山东人+这两个同学并不都是山东人
Neither of the students is from SD+Both students are from SD;
实例3、其它相关例子
The bird is an unusual winter visitor to Britain;
The relay acted vainly due to the negligible current;
All that glitters is not gold;
。。。。。。
总结:1、not和becuase同时出现无论not在什么位置译文相同;
2、cannot too等情态动词和not一起结合too 表肯定;
3、all和every一起和not出现表示并不都,而表示全部都不一般为neither和none等全否定型词语;
4、both...not 不能同时 But you see, we both can't go.
5、it be adj n that negativeword句型翻译时翻译成简单
就写这点,明天继续,哈哈,Good beginning is the half of success,想想还有些小鸡冻,我居然都成功了一半,准备做美梦去。。。
词袋模型的提出是为了解决文档分类,例如一个文员收到一个任务:把手里的共计10M的公司不同部门的相关工作文件进行归档分类,分别为财务部、公关部、市场部、管理层等四个部门,那么应该怎么做呢?
具体方法为:假设财务部的文件用“金额数目”表示,公关部用“客户数字”表示,市场部用“竞争对手”表示,管理层用“上市情况”表示。那么,我们依次将所有字体组合得到“金额数目客户字竞争对手上市情况”中字体依次用数字表示得到“0123456789abcde”一个15维的向量,那么不同部门文件分别可以表示为“111100000000000”、“001011100000000”等不同分布的特征向量,这样经过对训练数据进行特征表示方法学习,得到特征表示模型,输入新的文件时可以得到相应的特征表示,合理设计分类器既可以快速准确的将该文档进行归类。
那么,当将用于文档检索的磁带模型转移到视觉任务中需要怎么做呢?
在视觉分类系统中,由于图像的特征并非像文档中能够直接对单词进行赋值从而得到特征向量的形式一样直接对图像的像素点进行特征表示(因为最基本的图像处理任务的图片尺寸也得28*28吧,当然数字没这么具体但是意会就可以),因此需要经过四个步骤:特征检测-特征表示-词汇表生成-分类器设计,一般的特征表示部分大都采用局部不变特征表示方法-SIFT特征表示法进行特征的表示。例如输入训练图像为2幅,那么每一幅图像提取128维的SIFT特征向量后融合得到共计256维特征向量,之后采用K-means方法对得到的特征向量进行聚类得到真正无冗余的特征表示视觉词袋,随后结合视觉词袋和词频概念得到每个待分类图像的词袋直方图模型对图像进行表示(如图1所示),之后依次为训练分类器、对新输入图像进行分类。
图 1. 词袋模型直方图表示实例
关于词袋模型的介绍就到这里,大家如果有什么疑问可以留言哦,具体代码资料可以到这里(http://www.csdn.net/tag/词袋模型)下载。
接下来回顾一下今天英语课学的那些让人头晕的否定句翻译:
实例1、The motor stopped not because the electricity was off; The motor didn't stop because the electricity was off (结果是这两个句子是一个意思)发动机并没有因为停电的原因而停止工作;
实例2、这两个同学都不是山东人+这两个同学并不都是山东人
Neither of the students is from SD+Both students are from SD;
实例3、其它相关例子
The bird is an unusual winter visitor to Britain;
The relay acted vainly due to the negligible current;
All that glitters is not gold;
。。。。。。
总结:1、not和becuase同时出现无论not在什么位置译文相同;
2、cannot too等情态动词和not一起结合too 表肯定;
3、all和every一起和not出现表示并不都,而表示全部都不一般为neither和none等全否定型词语;
4、both...not 不能同时 But you see, we both can't go.
5、it be adj n that negativeword句型翻译时翻译成简单
就写这点,明天继续,哈哈,Good beginning is the half of success,想想还有些小鸡冻,我居然都成功了一半,准备做美梦去。。。
相关文章推荐
- 扩展欧几里得算法求方程特解
- leetcode刷题。总结,记录,备忘。168
- 博客处女作(2)
- GIt入门
- android soap协议与webservice
- 树莓派之远程操作预处理
- 博客处女作
- 环境变量设置
- HTML中的script标签研究
- 使用url_helper简化Python中Django框架的url配置教程
- 在Python的Django框架下使用django-tagging的教程
- MySQL中InnoDB的Memcached插件的使用教程
- MySQL中删除重复数据的简单方法
- 在MySQL中实现二分查找的详细教程
- 在MySQL中使用STRAIGHT_JOIN的教程
- 探究MySQL优化器对索引和JOIN顺序的选择
- 查找MySQL线程中死锁的ID的方法
- 使用Python的Django框架中的压缩组件Django Compressor
- Javascript实现div层渐隐效果的方法
- jquery简单实现外部链接用新窗口打开的方法