您的位置:首页 > 其它

DATAWHALE-NLP-TASK04

2020-07-22 23:59 330 查看

DATAWHALE-NLP Task04:文本分类1

最近2天分数没有上去,只是大概学了FASTTEXT的基本用法。

1. FASTTEXT

train_set['ft_label']='__label__' + train_set['label'].astype(str)
train_set['ft_label']='__label__' + train_set['label'].astype(str)
train_set[['text','ft_label']].to_csv('train_ft.csv', index=None, header=None, sep='\t')
model = fasttext.train_supervised('train_ft.csv', lr=1.0, wordNgrams=2,verbose=2, minCount=1, epoch=25, loss="hs")
val_pred = [model.predict(x)[0][0].split('__')[-1] for x in train_set['text']]
print(f1_score(train_set['label'].astype(str), val_pred, average='macro'))

val_pred = [model.predict(x)[0][0].split('__')[-1] for x in test_set['text']]

pd.DataFrame(val_pred,columns=['label']).to_csv('./NLP/ft_result.csv',index=False)

但是出现各种错乱,并没有调出结果。

2. DEV

DEV最近由于空间溢出(大约可以提供1G空间存储),或者经常fail to fetch等等问题也有一定的影响,所以学习期间还是优先在本地跑比较好。

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: