您的位置:首页 > 理论基础 > 计算机网络

(传感器网络年会)李建中:大数据与传感网(大数据计算的挑战与机遇)

2012-10-27 09:32 363 查看
一、大数据特征

1、数据量大;2、结构复杂;3、数据产生快;4、有用信息比例低;

二、启发示例

1、北京出租车一年产生GPS+监控数据,高达100PB;

2、英国飞机发动机监测系统,飞机每飞行一次产生高达PB的数据;

三、大数据计算空间

1、数据的有效获取,边获取如何边获取“元数据”;

2、数据的传输:如何高效,安全;

3、数据的存储:存储要面向计算,不只是存储;

4、数据的处理和应用:如何挖掘使用数据。

四、启发示例——现有计算资源不能满足大数据需求

1、单台主机——一个1TB的数据集做join,需要49小时;

2、64台集群——一个10TB数据join,依旧需要68小时。

五、新的问题及研究领域

1、在大数据情况下,多项式算法是否可以接受?(必须线性或者亚线性回归)

2、大数据计算的新思维:线性和亚线性计算理念——当不能给出线性算法时,如何处理和设计新的近似方法;

可用的算法:(1)基于压缩的算法;(2)基于抽样的计算;(3)基于主数据的计算;

3、云计算环境下,如何开展大数据计算(如何使用有限的网络流量)

(1)数据计算如何在分布式系统下分配;(2)在低网络流量下的,计算算法。

六、五个具体的领域

1、获取:互联网上的数据获取;物理世界的数据获取(等频抽样是否有效,因为小概率事件才是物理领域所关系的);分布式,多数据流的集成;新的信号采集方法。

2、传输:大数据实时传输的理论和算法:(1)判定问题(给定目的地和源,在时延t内是否传输完成)。当不能完成时,如何处理数据满足时延;(2)安全传输。(3)可靠,多路径。(4)边传输、边计算。

3、存储:存储与计算的云存储理论:(1)Agent思想,算法向数据传输;(2)大数据的感知存储;

4、大数据可用性问题:数据一致性、精确性、完整定、时效性、同一性。

5、计算:(1)计算机领域做的共性算法(PB级以上数据的结构、半结构化数据处理,OLAP等);图数据计算的算法(传感器网络边的不确定图,动态图——不确定图)。(2)跨领域数据处理(生物学,天文学,社会学,搞能物理,公共健康,量化金融。。。。。。)

6、认识各类集群的计算能力:处理器(如GPU),集群结构;高速网络;计算机机构(存储计算机)。

7、新的软件计算模型:Map/Reduce模型简单;新的软件工具(比如分布式算分的Debug);新的分布式软件开发方法学;大数据的Privacy。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: