查询处理以及分词技术(抽)
2006-08-28 10:08
399 查看
以百度为例:
一. 查询处理
百度怎么处理用户查询的呢?归纳如下:首先根据分割符号将查询分开,然后看看是否有重复的字符串,如果有,就抛弃多余的,只保留一个,接着判断是否有英文或者数字,如果有的话,把英文或者数字当作一个整体保留并把前后的中文切开.
接着该干什么呢?该考虑分词的问题了.
二. 中文分词
总结一下百度的分词算法,当然里面还是有猜测的成分,算法如下:
首先查询专用词典(人名,部分地名等),将专有名称切出,剩下的部分采取双向分词策略,如果两者切分结果相同,说明没有歧义,直接输出分词结果.如果不一致,则输出最短路径的那个结果,如果长度相同,则选择单字词少的那一组切分结果.如果单字也相同,则选择正向分词结果..
百度一直宣传自己在中文处理方面的优势,从上面看,分词算法并无特殊之处,消歧效果并不理想,即使百度采取比上述分词算法复杂些的算法也难以说成是优势,如果说百度有优势的话,唯一的优势就是那个很大的专用词典,这个专用词典登录了人名(比如大长今),称谓(比如老太太),部分地名(比如阿联酋等),估计百度采用学术界公布的比较新的命名实体识别算法从语料库里面不断识别出词典未登录词,逐渐扩充这个专门词典.如果这就是优势的话,那么这个优势能够保持多久就是个很明显的问题
一. 查询处理
百度怎么处理用户查询的呢?归纳如下:首先根据分割符号将查询分开,然后看看是否有重复的字符串,如果有,就抛弃多余的,只保留一个,接着判断是否有英文或者数字,如果有的话,把英文或者数字当作一个整体保留并把前后的中文切开.
接着该干什么呢?该考虑分词的问题了.
二. 中文分词
总结一下百度的分词算法,当然里面还是有猜测的成分,算法如下:
首先查询专用词典(人名,部分地名等),将专有名称切出,剩下的部分采取双向分词策略,如果两者切分结果相同,说明没有歧义,直接输出分词结果.如果不一致,则输出最短路径的那个结果,如果长度相同,则选择单字词少的那一组切分结果.如果单字也相同,则选择正向分词结果..
百度一直宣传自己在中文处理方面的优势,从上面看,分词算法并无特殊之处,消歧效果并不理想,即使百度采取比上述分词算法复杂些的算法也难以说成是优势,如果说百度有优势的话,唯一的优势就是那个很大的专用词典,这个专用词典登录了人名(比如大长今),称谓(比如老太太),部分地名(比如阿联酋等),估计百度采用学术界公布的比较新的命名实体识别算法从语料库里面不断识别出词典未登录词,逐渐扩充这个专门词典.如果这就是优势的话,那么这个优势能够保持多久就是个很明显的问题
相关文章推荐
- 搜索引擎设计实用教程(1)-以百度为例 之一:查询处理以及分词技术
- 【摘抄】百度分词算法详解:查询处理以及分词技术
- 高手收集整理的baidu分词算法分析之一 查询处理以及分词技术(1)
- 使用TeeList控件以及节点查询的处理
- JAVA中API的学习先后,以及查询网址和JAVA技术论坛
- Facebook的实时流处理技术——Scuba是Facebook的一个非常快速、分布式的内存数据库,用于实时分析和查询
- 聚簇索引与非聚簇索引的区别以及SQL Server查询优化技术(转)
- 数据库分页查询技术以及实现查询随机数
- 查询语句之空值处理以及排序和分组
- CASE函数 sql server——分组查询(方法和思想) ref和out 一般处理程序结合反射技术统一执行客户端请求 遍历查询结果集,update数据 HBuilder设置APP状态栏
- MySQL技术编程内幕——逻辑查询处理的步骤序号
- 睿城_技术02----说一下关于平台在属性查询,以及空间查询分析等时候遇到的问题
- 【Query处理学习笔记】搜索引擎查询推荐技术综述_中文信息学报2010_王斌
- JDBC以及相关技术学习(六)----批量SQL处理
- (转)聚簇索引与非聚簇索引的区别以及SQL Server查询优化技术
- 聚簇索引与非聚簇索引的区别以及SQL Server查询优化技术(转)
- 数据库分词查询的优缺点以及英文和中文各自的分词方法(一)
- H5技术完美实现调用手机摄像头、相册。图片上传base64,图片压缩、预览、删除以及图片旋转90度的处理--demo。
- javaweb网上书店之分页技术---有get方法进行查询分页,而URL中包含"%"的出错处理
- 最纯粹的直播技术实战02-Camera的处理以及推流