您的位置：首页 > 大数据

机器学习、自然语言处理、大数据和keras学习资料

2016-06-08 22:04 447 查看

中文keras学习资料

http://blog.csdn.net/zhoubl668/article/details/45559955

http://keras-cn.readthedocs.io/en/latest/#keras_1

支持向量机通俗导论（理解SVM的三层境界）

http://blog.csdn.net/v_july_v/article/details/7624837

神经网络语言模型

http://www.open-open.com/lib/view/open1426578842601.html

大数据

数据挖掘有很多不同的实施方法，如果只是把数据拉到Excel表格中计算一下，那只是数据分析，不是数据挖掘。本文主要讲解数据挖掘的基本规范流程。CRISP-DM和SEMMA是两种常用的数据挖掘流程。

http://www.36dsj.com/archives/15450

语料库

http://www.36dsj.com/archives/21118

国内外著名大学研究所提供的免费语料库用于标注翻译以及其他自然语言任务

以下语料库链接转载自http://blog.csdn.net/u010708470/article/details/52749535?locationNum=7

Penn Treebank http://www.cis.upenn.edu/~treebank/home.html

WSJ Corpus https://catalog.ldc.upenn.edu/LDC2000T43

NEGRA German corpus http://www.coli.uni-saarland.de/projects/sfb378/negra-corpus/

Tiger corpus http://www.ims.uni-stuttgart.de/projekte/TIGER/TIGERCorpus/

alpino Treebank http://odur.let.rug.nl/~vannoord/trees/

Bultreebank http://www.bultreebank.org/

Turin University Treebank http://www.di.unito.it/~tutreeb/

prague dependency Treebank http://ufal.mff.cuni.cz/pdt2.0/

大而全的NLTK所有语料

NLTK Corpora http://www.nltk.org/nltk_data/

NLP 代码

https://github.com/hankcs/HanLP

HanLP是由一系列模型与算法组成的Java工具包，目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

中文分词：最短路分词 N-最短路分词 CRF分词索引分词极速词典分词用户自定义词典

词性标注

命名实体识别：中国人名识别音译人名识别日本人名识别地名识别实体机构名识别

关键词提取：TextRank关键词提取自动摘要 TextRank自动摘要短语提取基于互信息和左右信息熵的短语提取

拼音转换　多音字　声母　韵母　声调

简繁转换　繁体中文分词　简繁分歧词（简体、繁体、臺灣正體、香港繁體）

文本推荐

语义推荐

拼音推荐

字词推荐

依存句法分析：基于神经网络的高性能依存句法分析器　MaxEnt依存句法分析　CRF依存句法分析

语料库工具：分词语料预处理　词频词性词典制作　BiGram统计　词共现统计　CoNLL语料预处理　CoNLL UA/LA/DA评测工具

DL-NLP入门论文

http://blog.sciencenet.cn/home.php?mod=space&uid=656867

Convolutional Neural Network Architectures for Matching NaturalLanguage Sentences

Deep Convolutional Neural Networks for Sentiment Analysis of ShortTexts

Named Entity Recognition with Bidirectional LSTM-CNNs

……

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： keras 机器学习自然语言处理 NLP工具语料

相关文章推荐

新的分享

章节导航