NLP(十)Bert使用
2019-05-30 20:17
1971 查看
Bert
bert的原理+代码估计啃至少一个星期
本来bert的源代码要用起来挺不容易的,还好有大神写了个pytorch的高级封装
腾讯也有个服务器的封装版 bert_as_service
注:bert的序列最大长度是512,调长好像会报错
pip install fast-bert
from fast_bert.data import * from fast_bert.learner import * from pytorch_pretrained_bert.tokenization import BertTokenizer # 关键的有三步 # 使用bert预训练模型转换词向量 tokenizer = BertTokenizer.from_pretrained("bert-base-uncased", do_lower_case=True) # batch数据接口 # label_cols: ['字符串1', '字符串2'] databunch = BertDataBunch(DATA_PATH, LABEL_PATH, tokenizer, train_file='train.csv', val_file='valid.csv', test_data='test.csv', label_file="labels.csv", text_col="comment_text", label_col=label_cols, bs=512, maxlen=512, multi_gpu=False, multi_label=True) # 创建模型模型 learner = BertLearner.from_pretrained_model(databunch, “bert-base-uncased“, metrics, device, logger is_fp16=True, loss_scale=128, multi_gpu=False, multi_label=False) # 4个并行任务 learner.fit(4, lr=0.001, schedule_type="warmup_linear")
参考链接:
https://github.com/wshuyi/demo-fastbert-multi-label-classification
相关文章推荐
- 使用opennlp进行依存句法分析
- NLP 再获重要进展,霸屏的 BERT 到底是个啥?
- 百度开源其NLP主题模型工具包,文本分类等场景可直接使用L——LDA进行主题选择本质就是降维,然后用于推荐或者分类
- 人工智能:python 实现 第十章,NLP 第一天 入门介绍及使用stemming还原词汇
- 使用RNN解决NLP中序列标注问题的通用优化思路
- 5 分钟入门 Google 最强NLP模型:BERT
- NLP 的巨人肩膀(下):从 CoVe 到 BERT
- 使用RNN解决NLP中序列标注问题的通用优化思路
- NLP中word2vec的使用
- 使用RNN解决NLP中序列标注问题的通用优化思路
- NLP之CRF++安装及使用
- 使用server版的哈工大LTP进行NLP任务(Java实现)
- OpenNLP使用小结
- 开启NLP新时代的BERT模型,是怎么一步步封神的?
- 【NLP】彻底搞懂BERT
- 使用RNN解决NLP中序列标注问题的通用优化思路
- Python自然语言处理(NLP)入门教程(NLTK库的安装和使用)
- 使用RNN解决NLP中序列标注问题的通用优化思路
- NLP用CNN分类Mnist,提取出来的特征训练SVM及Keras的使用(demo)
- [Keras实战教程]·使用Transfromer模型做文本分类(NLP分类最佳模型)