Pytorch DataLoader 变长数据处理方式
2020-02-13 11:32
1106 查看
关于Pytorch中怎么自定义Dataset数据集类、怎样使用DataLoader迭代加载数据,这篇官方文档已经说得很清楚了,这里就不在赘述。
现在的问题:有的时候,特别对于NLP任务来说,输入的数据可能不是定长的,比如多个句子的长度一般不会一致,这时候使用DataLoader加载数据时,不定长的句子会被胡乱切分,这肯定是不行的。
解决方法是重写DataLoader的collate_fn,具体方法如下:
# 假如每一个样本为: sample = { # 一个句子中各个词的id 'token_list' : [5, 2, 4, 1, 9, 8], # 结果y 'label' : 5, } # 重写collate_fn函数,其输入为一个batch的sample数据 def collate_fn(batch): # 因为token_list是一个变长的数据,所以需要用一个list来装这个batch的token_list token_lists = [item['token_list'] for item in batch] # 每个label是一个int,我们把这个batch中的label也全取出来,重新组装 labels = [item['label'] for item in batch] # 把labels转换成Tensor labels = torch.Tensor(labels) return { 'token_list': token_lists, 'label': labels, } # 在使用DataLoader加载数据时,注意collate_fn参数传入的是重写的函数 DataLoader(trainset, batch_size=4, shuffle=True, num_workers=4, collate_fn=collate_fn)
使用以上方法,可以保证DataLoader能Load出一个batch的数据,load出来的东西就是重写的collate_fn函数最后return出来的字典。
以上这篇Pytorch DataLoader 变长数据处理方式就是小编分享给大家的全部内容了,希望能给大家一个参考
您可能感兴趣的文章:
相关文章推荐
- Pytorch DataLoader 变长数据处理方法
- pytorch 实现将自己的图片数据处理成可以训练的图片类型
- Pytorch设置多线程进行dataloader时影响GPU运行
- 关于Pytorch中Dataset和Dataloader的理解
- pytorch DataLoader源码解析
- Pytorch Tensor 输出为txt和mat格式方式
- PyTorch使用cpu加载模型运算方式
- pytorch DataLoader中的参数:collate_fn函数
- PyTorch 入门实战(三)——Dataset和DataLoader
- pytorch之dataloader深入剖析
- 使用pytorch完成kaggle猫狗图像识别方式
- pytorch :: Dataloader中的迭代器和生成器应用
- pytorch中如何使用DataLoader对数据集进行批处理的方法
- 踩坑笔记之Pytorch利器:Pycharm(安装Pycharm破解以及创建快捷方式)
- pytorch 实现cross entropy损失函数计算方式
- pytorch自定义二值化网络层方式
- Pytorch GPU显存充足却显示out of memory的解决方式
- Windows下安装PyTorch0.4.0
- 学习pytest的第六天-----测试用例的参数化+fixtrue参数化的另外一种方式
- 深度学习之Pytorch(一)神经网络基础及代码实现