曾经很多人说“大数据就是未来”,这句话错了吗?
全文共1441字,预计学习时长5分钟
图源:scnsoft
“大数据”对我的吸引力已经大不如前了。
回想当年,在我刚开始攻读数据科学硕士学位的天真岁月里,任何与大数据相关的主题都会让我兴奋不已。我试图挖掘每一组数据中属于3V的一部分。我想要从无穷的数据流中提炼出可分析的数据,然后建模、可视化、进行数据转换。
然而如今,每每看到“大数据”这个词,总会不自觉地让我扬起眉毛,内心不断地猜想接下来又会出现哪个同样“流行”又“模糊”的科技热词呢?
究竟是我变了,还是大数据变了?
流行词与现实
最近,我对流行词变得十分敏感。它们被高估了,实际上不具有任何意义。“让大数据为数字化时代带来创新”,这句话看上去很酷,但它的意义又是什么呢?现实可能停留在Excel电子表格、令人沮丧且缓慢的计算中。
大数据之所以令人感到兴奋,是因为它代表了一种巨大的财富(“它将是一种巨大的财富”,听起来耳熟吗?),你可以在其中搜索、查找并使用对你有价值的任何东西。
我最初对于大数据的看法是,“在所有这些数据中,肯定有什么东西是我们绝对想知道的”。或许这是对的,但要从大量数据中找到那些有价值的东西,我们要付出什么代价呢?
没有正确的基础架构,大数据将毫无用处
处理大量数据需要计算能力,存储能力、以及数据传输等能力。同时,还会遇到各种意想不到的瓶颈。
随着云平台的发展,计算能力变得更加便宜和易于使用,但云存储也在指数级增长,云计算的日常使用甚至本地服务器的维护都是一笔不小的开销。
这也就是本世纪关于数据的最大教训:有时候,对某些人而言像黄金一样的数据,于另一些人而言就是浪费整个存储空间的垃圾。 图源:unsplash
很多公司都是先花钱挖掘数据,然后再回过头来看哪些数据是真的有用的。费用却已经花掉了,但有没有用可不一定。
那如果我们在收集数据之前就优先确定数据是否有用,结果会怎么样呢?
不是所有数据都是有趣的数据
数据科学界有句话叫“无用输入再无效输出”。在实际应用中,有很多数据实际上是不可靠的,而且是需要下很大功夫清理才能被使用的。 图源:unsplash
通常,我们花费了大量精力、时间和金钱却只能在庞大的数据集中找到少量信息。根据Forrester的报告,企业内至少60%的数据仍未使用。
如果将这些未使用数据的存储成本投资在实际需要的数据的正确基础架构中,会怎么样呢?
数据越多越好吗?
“向AI投入尽可能多的数据”的时代已经结束了。人们已经意识到,不是每一个数据特性都是有用的,有些甚至可能有害,数据的质量往往比数量更加重要。
我们更希望数据能够以可靠、一致的方式来呈现我们关心的事情。通过了解数据的质量,也会更好地将我们领入一个可解释的、负责任的和安全的关于AI的研究探索阶段。
这是(大型)实施和(大型)搭建更好的基础架构的时代 图源:unsplash
我们已经获得了数据,现在需要做的是搭建更完善的基础架构,从而更安全地使用、共享、分析数据,并且能够更加精准地区分无用数据和有价值的信息。
我们还需要确保数据和人工智能的质量和可靠性,确保全世界都可以使用它们并理解其中涵义。尽管有些人很难理解这一点,但数据不在于庞大,而在于可靠。
尽管听上去没有其他口号那样有煽动力,但是我还是要讲:大数据已死,可靠的数据万岁!
推荐阅读专题
留言点赞发个朋友圈我们一起分享AI学习与发展的干货编译组:雷玥、钟惠相关链接:https://towardsdatascience.com/bye-bye-big-data-fbea187c7739如转载,请后台留言,遵守转载规范推荐文章阅读ACL2018论文集50篇解读EMNLP2017论文集28篇论文解读2018年AI三大顶会中国学术成果全链接ACL2017论文集:34篇解读干货全在这里10篇AAAI2017经典论文回顾长按识别二维码可添加关注读芯君爱你
- 阿里巴巴集团技术委员会主席王坚:我曾经被诺贝尔奖得主司马贺忽悠_相信人工智能就是未来!
- 【诸葛】大数据的未来:数据是商品,你就是猎物
- 未来的信息化,就是挖掘企业数据、提升战略决策
- 看不懂的就是未来?这个麻省理工毕业的前VC,回国做了浮冬数据,专攻电竞
- 未来的信息化,就是挖掘企业数据、提升战略决策
- 阿里巴巴集团技术委员会主席王坚:我曾经被诺贝尔奖得主司马贺忽悠_相信人工智能就是未来!
- 移动应用、大数据等推动广域网优化未来三年高速增长
- 专家预测,未来将是大数据可视化当道
- 数据科学的未来
- 使用map来进行票数统计工作,循环输入多个人名,作为key存储到map中,对应的value就是该人获得的票数(即重复输入的次数),当重复输入时,需要对相应的数据进行修改。最红输quit结束循环,打印
- 用数据说话,分析游戏产业是未来动向
- Hadoop之父勾勒大数据平台的未来
- 区块链与大数据的整合,未来必然趋势
- CloudConnect回顾,以及数据的未来
- 未来大容量数据网络的关键设备—光交换机
- mysql查询获取分组后最新的一条记录,策略:先排序,然后在次分组查询(默认第一条),就是最新的一条数据了
- java中的map其实就是以键值对形式的存放数据的容器,其常用的实现类主要是哈希map
- IBM虚拟化与云计算专家吴玉会――虚拟化如何发展,云计算是否就是未来
- KDnuggets:未来4至10年内对数据科学家的需求将开始减少
- 很多人在进行数据迁移时,希望把数据导入不同于原系统的表空间,在导入之后却往往发现,数据被导入了原表空间