【自然语言处理】英文开源工具汇总()
2018-03-24 10:17
567 查看
本博客主要是对网络上的一些关于英文自然语言处理开源工具的博客进行整理、汇总,如果有涉及到您的知识产权等,请联系本人已进行修改,也欢迎广大读者进行指正以及补充。
本博客将尽量从工具的使用语言、功能等方面进行汇总介绍。
示例代码:[java] view plain copy//设置分词器属性。
Properties props = new Properties();
//字典文件地址,可以用绝对路径,如d:/data
props.setProperty("sighanCorporaDict", "data");
//字典压缩包地址,可以用绝对路径
props.setProperty("serDictionary","data/dict-chris6.ser.gz");
//输入文字的编码;
props.setProperty("inputEncoding", "UTF-8");
props.setProperty("sighanPostProcessing", "true");
//初始化分词器,
CRFClassifier classifier = new CRFClassifier(props);
//从持久化文件中加载分词器设置;
classifier.loadClassifierNoExceptions("data/ctb.gz", props);
// flags must be re-set after data is loaded
classifier.flags.setProperties(props);
//分词
List words = classifier.segmentString("语句内容");
1.2 Stanford POS Tagger
介绍:采用Java编写的面向英文、中文、法语、阿拉伯语、德语的命名实体识别工具,下载地址。
介绍:采用Java编写的面向英文的处理工具,下载网址。
用户评价:采用它进行英语单词的词性还原,具体应用详见文章《采用Stanford CoreNLP实现英文单词词形还原》。
本博客将尽量从工具的使用语言、功能等方面进行汇总介绍。
1 斯坦福大学
语言:Java功能:分词、词性标注、命名实体识别、语法解析、分类。介绍:Stanford NLP Group是斯坦福大学自然语言处理的团队,开发了多个NLP工具,官网网址。由于该团队将该开源分为多个子模块,以下将逐一进行介绍。1.1 Stanford Word Segmenter
介绍:采用CRF(条件随机场)算法进行分词,也是基于Java开发的,同时可以支持中文和Arabic,官方要求Java版本1.6以上,推荐内存至少1G。下载地址。示例代码:[java] view plain copy//设置分词器属性。
Properties props = new Properties();
//字典文件地址,可以用绝对路径,如d:/data
props.setProperty("sighanCorporaDict", "data");
//字典压缩包地址,可以用绝对路径
props.setProperty("serDictionary","data/dict-chris6.ser.gz");
//输入文字的编码;
props.setProperty("inputEncoding", "UTF-8");
props.setProperty("sighanPostProcessing", "true");
//初始化分词器,
CRFClassifier classifier = new CRFClassifier(props);
//从持久化文件中加载分词器设置;
classifier.loadClassifierNoExceptions("data/ctb.gz", props);
// flags must be re-set after data is loaded
classifier.flags.setProperties(props);
//分词
List words = classifier.segmentString("语句内容");
1.2 Stanford POS Tagger
介绍:采用Java编写的面向英文、中文、法语、阿拉伯语、德语的命名实体识别工具,下载地址。1.3 Stanford Named Entity Recognizer
介绍:采用条件随机场模型的命名实体工具,下载地址。1.4 Stanford Parser
介绍:进行语法分析的工具,支持英文、中文、阿拉伯文和法语。下载地址。1.5 Stanford Classifier
介绍:采用Java编写的分类器,下载地址。最后附上关于中文分词器性能比较的一篇文章(2014.05.27更新)1.6 Stanford CoreNLP
功能:分词、词性标注、命名实体识别、语法分析介绍:采用Java编写的面向英文的处理工具,下载网址。
用户评价:采用它进行英语单词的词性还原,具体应用详见文章《采用Stanford CoreNLP实现英文单词词形还原》。
相关文章推荐
- 【自然语言处理】中文开源工具汇总(7种)
- 速度收藏 | 100+大数据开源处理工具汇总
- DICOM 开源工具汇总
- 比较好用的开源建站工具:英文 - phpbb; 中文 - discuz!.
- 【干货】全球大数据领域顶级开源工具汇总
- 100+大数据开源处理工具汇总
- 一共81个,开源大数据处理工具汇总(下)
- Android高效率编码-细节,控件,架包,功能,工具,开源汇总
- 自然语言处理NLP常用开源/免费工具
- 开源压力测试工具汇总
- 部分开源测试及常用工具汇总
- 100+大数据开源处理工具汇总
- 开源大数据处理工具汇总(上)
- 一共81个,开源大数据处理工具汇总:查询引擎、流式计算、迭代计算、离线计算、键值存储、表格存储、文件存储、资源管理、日志收集系统、消息系统、分布式服务、集群管理、基础设施、搜索引擎、数据挖掘=监控
- Android开源项目分类汇总+Android开发工具
- 开源相关工具汇总
- 一共81个,开源大数据处理工具汇总
- 各种开源NLP自然语言处理工具集锦
- 一共81个,开源大数据处理工具汇总:查询引擎、流式计算、迭代计算、离线计算、键值存储、表格存储、文件存储、资源管理、日志收集系统、消息系统、分布式服务、集群管理、基础设施、搜索引擎、数据挖掘=监控
- 自然语言处理(NLP)常用开源工具总结----不定期更新