新浪SAE中文分词接口
2016-01-19 20:19
465 查看
最近发现新浪SAE平台上竟然也提供分词功能,分词效果也还不错,由新浪爱问提供的分词服务,研究了一番,做了一个简易版的在线调用接口(get方式,非post)
官网说明:http://apidoc.sinaapp.com/class-SaeSegment.html,SAE分词系统基于隐马模型开发出的汉语分析系統,主要功能包括中文分词、词性标注、命名实体识别、新词识别。
调用规则:http://simonfenci.sinaapp.com/index.php?key=simon&wd={语句}
(返回结果里包含分词词性,随便用个程序语言处理一下就行了,详见:http://apidoc.sinaapp.com/class-SaeSegment.html#POSTAG_ID_UNKNOW)
只需要改变URL中的{语句}参数即可(编码为utf-8),因为是get方式传参,语句不能太长;也可以根据官方的api文档,做个简易的post方式。
另推荐几个分词系统:
1、Python的结巴中文分词系统(推荐),demo:http://jiebademo.ap01.aws.af.cm/ ,下载地址:https://github.com/fxsjy/jieba
2、中科院ICTCLAS中文分词系统,支持C/C#/C++/JAVA,32/64都有其对应的版本,有开发能力的可以尝试一下。
3、海量云分词系统demo ,分词效果也不错,可以申请到api接口,官网:http://www.hylanda.com/show_5_19.html
推荐阅读:
http://www.sinacloud.com/doc/sae/python/segment.html
转自Fooying:四款python中文分词系统简单测试
转自知乎:有哪些比较好的中文分词方案?
官网说明:http://apidoc.sinaapp.com/class-SaeSegment.html,SAE分词系统基于隐马模型开发出的汉语分析系統,主要功能包括中文分词、词性标注、命名实体识别、新词识别。
调用规则:http://simonfenci.sinaapp.com/index.php?key=simon&wd={语句}
(返回结果里包含分词词性,随便用个程序语言处理一下就行了,详见:http://apidoc.sinaapp.com/class-SaeSegment.html#POSTAG_ID_UNKNOW)
只需要改变URL中的{语句}参数即可(编码为utf-8),因为是get方式传参,语句不能太长;也可以根据官方的api文档,做个简易的post方式。
另推荐几个分词系统:
1、Python的结巴中文分词系统(推荐),demo:http://jiebademo.ap01.aws.af.cm/ ,下载地址:https://github.com/fxsjy/jieba
2、中科院ICTCLAS中文分词系统,支持C/C#/C++/JAVA,32/64都有其对应的版本,有开发能力的可以尝试一下。
3、海量云分词系统demo ,分词效果也不错,可以申请到api接口,官网:http://www.hylanda.com/show_5_19.html
推荐阅读:
http://www.sinacloud.com/doc/sae/python/segment.html
转自Fooying:四款python中文分词系统简单测试
转自知乎:有哪些比较好的中文分词方案?
相关文章推荐
- 蓝桥杯 算法提高 最大乘积
- 密码
- POJ3070 Fibonacci(矩阵快速幂)
- 松下蓄电池与UPS使用和维护
- C++的运算符重载
- MFC操作SQlite,打开数据库路径存在中文,解决方案
- android 4.0.3 设置时间无法更新到RTC
- foreach
- CSS的::selection使用方法
- Reactor模式
- 异步打开一个文件进行读取
- confluence安装
- POJ 3416 Sunscreen(贪心)
- 每个程序员需掌握的20个代码命名小贴士
- Single Number leetcode
- C++之智能指针(二)
- java 读取XML文件作为配置文件
- 视频采集处理之V4L2编程
- Android Studio导入GitHub第一个项目PullToRefresh
- leetcode 之valid anagram