(传感器网络年会)李建中:大数据与传感网(大数据计算的挑战与机遇)
2012-10-27 09:32
363 查看
一、大数据特征
1、数据量大;2、结构复杂;3、数据产生快;4、有用信息比例低;
二、启发示例
1、北京出租车一年产生GPS+监控数据,高达100PB;
2、英国飞机发动机监测系统,飞机每飞行一次产生高达PB的数据;
三、大数据计算空间
1、数据的有效获取,边获取如何边获取“元数据”;
2、数据的传输:如何高效,安全;
3、数据的存储:存储要面向计算,不只是存储;
4、数据的处理和应用:如何挖掘使用数据。
四、启发示例——现有计算资源不能满足大数据需求
1、单台主机——一个1TB的数据集做join,需要49小时;
2、64台集群——一个10TB数据join,依旧需要68小时。
五、新的问题及研究领域
1、在大数据情况下,多项式算法是否可以接受?(必须线性或者亚线性回归)
2、大数据计算的新思维:线性和亚线性计算理念——当不能给出线性算法时,如何处理和设计新的近似方法;
可用的算法:(1)基于压缩的算法;(2)基于抽样的计算;(3)基于主数据的计算;
3、云计算环境下,如何开展大数据计算(如何使用有限的网络流量)
(1)数据计算如何在分布式系统下分配;(2)在低网络流量下的,计算算法。
六、五个具体的领域
1、获取:互联网上的数据获取;物理世界的数据获取(等频抽样是否有效,因为小概率事件才是物理领域所关系的);分布式,多数据流的集成;新的信号采集方法。
2、传输:大数据实时传输的理论和算法:(1)判定问题(给定目的地和源,在时延t内是否传输完成)。当不能完成时,如何处理数据满足时延;(2)安全传输。(3)可靠,多路径。(4)边传输、边计算。
3、存储:存储与计算的云存储理论:(1)Agent思想,算法向数据传输;(2)大数据的感知存储;
4、大数据可用性问题:数据一致性、精确性、完整定、时效性、同一性。
5、计算:(1)计算机领域做的共性算法(PB级以上数据的结构、半结构化数据处理,OLAP等);图数据计算的算法(传感器网络边的不确定图,动态图——不确定图)。(2)跨领域数据处理(生物学,天文学,社会学,搞能物理,公共健康,量化金融。。。。。。)
6、认识各类集群的计算能力:处理器(如GPU),集群结构;高速网络;计算机机构(存储计算机)。
7、新的软件计算模型:Map/Reduce模型简单;新的软件工具(比如分布式算分的Debug);新的分布式软件开发方法学;大数据的Privacy。
1、数据量大;2、结构复杂;3、数据产生快;4、有用信息比例低;
二、启发示例
1、北京出租车一年产生GPS+监控数据,高达100PB;
2、英国飞机发动机监测系统,飞机每飞行一次产生高达PB的数据;
三、大数据计算空间
1、数据的有效获取,边获取如何边获取“元数据”;
2、数据的传输:如何高效,安全;
3、数据的存储:存储要面向计算,不只是存储;
4、数据的处理和应用:如何挖掘使用数据。
四、启发示例——现有计算资源不能满足大数据需求
1、单台主机——一个1TB的数据集做join,需要49小时;
2、64台集群——一个10TB数据join,依旧需要68小时。
五、新的问题及研究领域
1、在大数据情况下,多项式算法是否可以接受?(必须线性或者亚线性回归)
2、大数据计算的新思维:线性和亚线性计算理念——当不能给出线性算法时,如何处理和设计新的近似方法;
可用的算法:(1)基于压缩的算法;(2)基于抽样的计算;(3)基于主数据的计算;
3、云计算环境下,如何开展大数据计算(如何使用有限的网络流量)
(1)数据计算如何在分布式系统下分配;(2)在低网络流量下的,计算算法。
六、五个具体的领域
1、获取:互联网上的数据获取;物理世界的数据获取(等频抽样是否有效,因为小概率事件才是物理领域所关系的);分布式,多数据流的集成;新的信号采集方法。
2、传输:大数据实时传输的理论和算法:(1)判定问题(给定目的地和源,在时延t内是否传输完成)。当不能完成时,如何处理数据满足时延;(2)安全传输。(3)可靠,多路径。(4)边传输、边计算。
3、存储:存储与计算的云存储理论:(1)Agent思想,算法向数据传输;(2)大数据的感知存储;
4、大数据可用性问题:数据一致性、精确性、完整定、时效性、同一性。
5、计算:(1)计算机领域做的共性算法(PB级以上数据的结构、半结构化数据处理,OLAP等);图数据计算的算法(传感器网络边的不确定图,动态图——不确定图)。(2)跨领域数据处理(生物学,天文学,社会学,搞能物理,公共健康,量化金融。。。。。。)
6、认识各类集群的计算能力:处理器(如GPU),集群结构;高速网络;计算机机构(存储计算机)。
7、新的软件计算模型:Map/Reduce模型简单;新的软件工具(比如分布式算分的Debug);新的分布式软件开发方法学;大数据的Privacy。
相关文章推荐
- 机遇与挑战:大数据时代数据挖掘与网络科学助力市场研究
- 区分异步和多线程应用场景(IO操作包括获取网络数据用异步,大量耗时的计算用线程)
- 云计算与虚拟化之后:网络威胁成新挑战
- 大数据带来的机遇与挑战
- 应用交付网络市场机遇与挑战并存 F5跟随趋势开发新平台
- 实验数据:将甲醛和亚硝酸的模拟分子网络分别计算100次的结果
- 航运大数据——机遇和挑战
- 【知识图谱】大数据环境下知识工程的机遇和挑战
- 网络数据包大小计算
- 云计算带来的机遇和挑战
- 云计算时代下网络安全的机遇挑战与未来趋势
- 机器智能加速器:大数据环境下知识工程的机遇和挑战 | 清华李涓子教授
- PTA-数据结构 5-36 社交网络图中结点的“重要性”计算 (30分)
- 区块链、云计算、大数据、人工智能、FinTech带来的挑战与机遇,中国技术开放日上海站精彩回顾
- 网络上的机遇和挑战是一直并存着的
- 神经网络中embedding层作用——本质就是word2vec,数据降维,同时可以很方便计算同义词(各个word之间的距离),底层实现是2-gram(词频)+神经网络
- 艾级超级计算的机遇与挑战
- 区块链、云计算、大数据、人工智能、FinTech带来的挑战与机遇,中国技术开放日上海站精彩回顾
- 吴建平院士:网络空间安全的挑战和机遇
- 复杂网络研究的机遇与挑战