您的位置:首页 > 大数据

机器学习、自然语言处理、大数据和keras学习资料

2016-06-08 22:04 447 查看

中文keras学习资料

http://blog.csdn.net/zhoubl668/article/details/45559955

http://keras-cn.readthedocs.io/en/latest/#keras_1

支持向量机通俗导论(理解SVM的三层境界)

http://blog.csdn.net/v_july_v/article/details/7624837

神经网络语言模型

http://www.open-open.com/lib/view/open1426578842601.html

大数据

数据挖掘有很多不同的实施方法,如果只是把数据拉到Excel表格中计算一下,那只是数据分析,不是数据挖掘。本文主要讲解数据挖掘的基本规范流程。CRISP-DM和SEMMA是两种常用的数据挖掘流程。

http://www.36dsj.com/archives/15450

语料库

http://www.36dsj.com/archives/21118

国内外著名大学研究所提供的免费语料库 用于标注翻译以及其他自然语言任务

以下语料库链接转载自http://blog.csdn.net/u010708470/article/details/52749535?locationNum=7

Penn Treebank http://www.cis.upenn.edu/~treebank/home.html

WSJ Corpus https://catalog.ldc.upenn.edu/LDC2000T43

NEGRA German corpus http://www.coli.uni-saarland.de/projects/sfb378/negra-corpus/

Tiger corpus http://www.ims.uni-stuttgart.de/projekte/TIGER/TIGERCorpus/

alpino Treebank http://odur.let.rug.nl/~vannoord/trees/

Bultreebank http://www.bultreebank.org/

Turin University Treebank http://www.di.unito.it/~tutreeb/

prague dependency Treebank http://ufal.mff.cuni.cz/pdt2.0/

大而全的NLTK所有语料

NLTK Corpora http://www.nltk.org/nltk_data/

NLP 代码

https://github.com/hankcs/HanLP

HanLP是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

中文分词:最短路分词 N-最短路分词 CRF分词 索引分词 极速词典分词 用户自定义词典

词性标注

命名实体识别:中国人名识别 音译人名识别 日本人名识别 地名识别 实体机构名识别

关键词提取:TextRank关键词提取 自动摘要 TextRank自动摘要 短语提取 基于互信息和左右信息熵的短语提取

拼音转换 多音字 声母 韵母 声调

简繁转换 繁体中文分词 简繁分歧词(简体、繁体、臺灣正體、香港繁體)

文本推荐

语义推荐

拼音推荐

字词推荐

依存句法分析:基于神经网络的高性能依存句法分析器 MaxEnt依存句法分析 CRF依存句法分析

语料库工具:分词语料预处理 词频词性词典制作 BiGram统计 词共现统计 CoNLL语料预处理 CoNLL UA/LA/DA评测工具

DL-NLP入门论文

http://blog.sciencenet.cn/home.php?mod=space&uid=656867

Convolutional Neural Network Architectures for Matching NaturalLanguage Sentences

Deep Convolutional Neural Networks for Sentiment Analysis of ShortTexts

Named Entity Recognition with Bidirectional LSTM-CNNs

……
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息