您的位置:首页 > 其它

机器学习/深度学习常用数据集归纳(附百度网盘链接)

Mingw_ 2020-03-15 18:22 38 查看 https://blog.csdn.net/mingw_/a

文章目录

  • 三、聚类常用数据集
  • 四、回归常用数据集
  • 五、分割常用数据集


  • 一、前言

      数据集不定时更新,欢迎大家分享更多的数据集,若数据集分享链接失效的话,可评论或私聊博主,还有…emmmm, 制造不易,点个赞再走把!!
      最后一次更新日期:2020.3.7

    二、分类常用数据集


    (1)海伦约会

    样本数据特征:
    1.每年获得的飞行常客里程数
            2.玩视频游戏所消耗事件百分比
            3.每周消费的冰激凌公升数


    样本标签值:
      1.不喜欢的人
            2.魅力一般的人
            3.极具魅力的人

    数据集格式:
    txt文件

     百度网盘链接:海伦约会数据集
     提取码:xgm6


    (2)iris鸢尾花数据集

    样本数据特征:
    1.Sepal.Length(花萼长度)
            2.Sepal.Width(花萼宽度)
            3.Petal.Length(花瓣长度)
            4.Petal.Width(花瓣宽度)

    样本标签值:
      1.setosa
            2.versicolor
            3.virginica

    数据集格式:
    csv文件

     百度网盘链接:iris鸢尾花数据集
     提取码:5m0q


    (3)垃圾邮件过滤

    数据集说明:
    数据集下包含两个文件夹,其中spam文件夹下为垃圾邮件,ham文件夹下为非垃圾邮件。

    数据集格式:
    txt文件

     百度网盘链接:垃圾邮件过滤
     提取码:3pny


    (4)cifar10/100数据集

    cifar10数据集说明:
    由10个类的60000个32x32彩色图像组成,每个类有6000个图像。 有50000个训练图像和10000个测试图像。数据集分为五个训练批次和一个测试批次,每个批次有10000个图像。测试批次包含来自每个类别的恰好1000个随机选择的图像。

    数据集类型:
    python版本

    说明:
    其中readme.html文件下包含Matlab和binary两个版本的下载,以及包含cifar100的下载链接,需要者可自行下载。

     百度网盘链接:cifar10/100数据集下载
     提取码:diwr


    (6)mnist数据集

    cifar10数据集说明:
    MNIST数据集由60000个训练样本和10000个测试样本组成,每个样本都是一张28 * 28像素的灰度手写数字图片。

    数据集格式:
    .pkl文件、.txt文件(binary)、.rar文件(image)

     百度网盘链接:pkl格式mnist数据集
     提取码:cd5i

     百度网盘链接:txt格式mnist数据集
     提取码:an60

     百度网盘链接:rar格式mnist数据集
     提取码:4ehe


    三、聚类常用数据集


    (1)Kmean-dataset

    说明:
    此数据集为编写Kmeans算法时, 创造的简易数据集,包含四个特征值,有需要的朋友可以自取。

    数据集格式:
    txt文件

     百度网盘链接:Kmeans算法数据集
     提取码:891h



    四、回归常用数据集


    (1)Boston房屋价格预测

    样本数据特征:
    1.CRIM:城镇人均犯罪率
            2.ZN:住宅用地超过 25000
             sq.ft. 的比例
            3.CHAS:查理斯河空变量(如果
            边界是河流,则为1;否则为0)
            4.NOX:一氧化氮浓度
            5.RM:住宅平均房间数
            6.AGE:1940 年之前建成的自用
            房屋比例
            7.DIS:到波士顿五个中心区域的
            加权距离
            8.RAD:辐射性公路的接近指数
            9.TAX:每 10000 美元的全值财
            产税率
            10.PTRATIO:城镇师生比例
            11.B:1000(Bk-0.63)^ 2,其
            中 Bk 指代城镇中黑人的比例
            12.LSTAT:人口中地位低下者的
            比例

    样本target:
      MEDV:自住房的平均房价,以
            千美元计

    数据集格式:
    txt文件

     百度网盘链接:Boston房屋价格预测数据集
     提取码:svet



    五、分割常用数据集


    (1)视网膜血管

    训练集:
    共二十张图片(含标记)

    测试集:
      共二十张图片(含标记)

    训练集具体说明:
    视网膜血管数据集说明

    数据集格式:
    图片文件

     百度网盘链接:DRIVE视网膜血管数据集
     提取码:nz6p


    • 点赞 1
    • 收藏
    • 分享
    • 文章举报
    Mingw_ 发布了36 篇原创文章 · 获赞 64 · 访问量 2791 私信 关注
    标签: