大数据的机遇与挑战:清华、复旦、中科院、春雨移动及考拉征信专家的观点
2015-08-05 09:27
281 查看
http://www.csdn.net/article/2015-07-30/2825346
大数据数据挖掘人工智能CCAICCAI2015
摘要:围绕大数据与人工智能、大数据的科学原理与数据科学、非结构与半结构大数据的结构化、大数据的复杂性表达与数据社会、大数据的开放产权与隐私问题、大数据与人类健康、大数据与信用评分及社会管理七个话题同台论道。
为了更好地引导和推动我国人工智能领域的发展,由中国人工智能学会发起主办,CSDN承办的2015中国人工智能大会(CCAI 2015)于7月26-27日在北京友谊宾馆召开。本次会议的主旨是创办国内人工智能领域规模最大、规格最高的高水平学术和技术盛会,汇聚国内外顶级的专家学者及产业界人士,围绕当前最新热点和发展趋势的话题进行交流与探讨,并针对“机器学习与模式识别”、“大数据的机遇与挑战”、“人工智能与认知科学”和“智能机器人的未来”四个主题进行专题研讨,努力打造国内人工智能前沿技术和学术交流的平台。
中国科学院大学教授石勇
27日下午,“大数据的机遇与挑战”专题论坛在中国科学院大学教授石勇的主持下开始,他给出了讨论的7个话题方向:
大数据与人工智能
大数据的科学原理与数据科学
非结构与半结构大数据的结构化问题
大数据的复杂性表达和数据社会
大数据的开放,产权与隐私问题
大数据与人类健康
大数据与信用评分及社会管理
清华大学计算机系副主任、国家“千人计划”特聘专家朱文武,复旦大学教授、上海市数据科学重点实验室主任朱杨勇,春雨移动健康CEO张锐,中科院计算所研究员何清,以及考拉征信首席技术官葛伟平受邀参与了本次讨论。
清华大学计算机系副主任、国家“千人计划”特聘专家朱文武
清华大学计算机系副主任、国家“千人计划”特聘专家朱文武从大数据的角度探讨了大数据和人工智能、数字驱动知识驱动和大数据的结合等方面相关的问题。朱文武首先讲到,目前正处于一个很好的时代,人、机、物所产生的数据无所不在,我们通过各种各样的设备将数据采集起来,大数据将带来产业变革和商业机遇。
朱教授讲到:从科学发展上来看,数据科学是将成为科学发展的第四范式,数据科学,是数据爆炸将理论、实验、计算统一起来的学科交叉。从数据中能不能体现出规律,这样特点使得有原来的模型驱动,经验决策转变数据驱动、数据决策。
朱教授认为大数据产生网络世界、物理世界和人类社会三元空间中。里面存在的核心问题是异构关联和数据发现。大数据处理的问题就是怎么样找知识和知识之间的关系,数据驱动更重要的是要知识驱动相结合,之前是应用和服务,现在把大数据驱动和知识驱动结合起来,可能是更好的方法。
对于类脑计算,朱教授认为将来还有很长的路可走。现在我们国家都在启动脑科学这种大项目,重大国家部署。希望将来有一天类脑计算能够像人的思维方式做一些认知,做一些知识生成,而不是像计算机一样去计算。
复旦大学教授、上海市数据科学重点实验室主任朱杨勇
复旦大学教授、上海市数据科学重点实验室主任朱杨勇表示,从百度那里看到大数据的定义是当前技术不能处理的数据集,朱主任认为这对人工智能从业者来说是好消息,因为他们可以有更多的事情去做,很多项目可以申请;另一方面很多大数据成功的案例使得全国人民知道大数据很好。
大数据最大的改变在于决策方式,大到国家层面小到生活层面,大数据在决策中均可以发挥其作用。今天所讲大数据,和以前讲信息化是有区别的,并不是带上大数据的帽子就是大数据,朱主任认为大数据是指为据测问题提供服务的大数据集、大数据技术和大数据应用的总称。
他提出,大数据问题的关键技术挑战在于:找到隐含在低价值密度数据资源中的价值,以及在希望的时间内完成所有的任务。用数据解决问题和解决数据的问题,这两项工作结合起来结合起来就是数据科学。
中科院计算所研究员何清
中科院计算所研究员何清的主题是《大数据与人工智能》,首先他提出人工智能的三个标志性事件:1996年5月11日深蓝战胜国际象棋冠军,代表着专家知识搜索能力首次超过人类。2006年深度学习图像识别人脸识别问题语言翻译取得突破,这就是在机器特征学习能力方面在大数据背景下打造与人相当的成功。2011年2月14日WATSON在知识竞赛获胜,大规模知识工程自动化能力这种首次超过了人类。
三次人工智能的突破的技术基础包括:分布并行计算环境,专家规则知识搜索,非结构化信息处理, 类人认知学习过程。
对于大数据下如何发展人工智能,他认为:
以认知科学为基础,因为开发大数据就是要做知识发现,就是要做模式的识别,所有这些都离不开认知科学的发展。
以智能算法为核心,所有目标都离不开算法,没有算法的实现你就不可能发展新一代的人工智能。
以计算智能为手段。这个计算智能包括神经手段,包括网络,模型信息处理,也包括智能算法和计算机算法,目前信息计算智能不可能一蹴而就,而且相对来说很低。
人工智能多学科交叉的智能信息处理。在大数据算法中要注重数据构造,迭代性,收敛性,稳定性,实效性,因此要求输入可执行,可高效,而且要跟人脑的思维时间和速率有相当可比的成分。
何清最后介绍了大数据挖掘算法的特征和挑战,包括大数据集问题、数据复杂性问题以及数据动态增长的问题。解决的思路,是研究分布式并行计算环境下的大数据分析挖掘的基本策略、复杂度降低精度可控的算法以及集成算法构建大数据挖掘平台。
春雨移动健康创始人张锐
春雨移动健康CEO张锐主要分享了具体应用领域里面如何操作健康大数据,他具体分析了数字医疗核心——EHR。通过数据采集对数据监督,然后对数据进行干预。这是数字医疗方面的基本范式。他讲到EHR有四个方面:实时健康流数据,历时疾病数据,节点健康水平数据和健康消费行为数据。 其中,实时健康流数据主要采集的是人体心率、心电、血压、血糖、运动、体温、呼吸等生命体征数据,主要是来自可穿戴设备等。历时疾病数据来自各医院,但由于信息孤岛,有很大的应用障碍。 节点健康水平数据比如每年的体检数据。
他指出EHR给现代医学带来的变化,首先是从看医生到医生看你,从医生中心到用户中心,从医院中心到客厅中心,从治病挣钱到防病挣钱。并表示目前还有一些问题需要解决,比如中国用户EHR数据画像,EHR上下游硬件和EHR接口标准等。
考拉征信首席技术官葛伟平
考拉征信首席技术官葛伟平首先分享征信与数据的关系。他认为,数据和征信密不可分。数据是征信的基础,然后他分享在大数据以及其应用方面的一些体验:
征信涉及的数据种类比较多,所以要收集和利用能够反映能力或者意愿的数据, 如信用类数据、理财数据、公缴数据、消费数据,在移动互联网时代可以通过位置信息验证身份有效性,互联网信息也可以加入评估。
在处理这些大数据,把所有的数据处理和计算都放在Hadoop平台,用HIVE作为数据仓库,用IMPALA作为即时数据勘察工具,用R作为建模工具,积极使用spark。从这几个角度来看,大数据的成熟也给征信提供更多的方法。
征信建模,是采取传统统计理论和大数据技术联合建模,数据量越大,越能提升模型预测能力,处理能力越高,建模优势越明显。因此他认为大数据建模在以后会表现出越来越多的优势。
征信数据方面,中国跟美国差别很大,国家征信公司数据都很有特色,但是都不完备。所以征信数据上考拉征信采用原始明晰数据层做底层融合、外部标签数据拿过来做辅助补充以及模型层融合,共享相互之间模型建构,这个情况下我们再利用SPACE进行加工,达到数据融合,从而能更加准确地反映个人的信用。
在全体讨论环节,各位专家针对现场听众的问题作了详细的解答。
一位听众针对个人隐私方面,提出了在整合数据怎么处理数据边界以及关于隐私方面的交集的问题。
考拉征信首席技术官葛伟平回答:征信公司严格来讲它是第三方机构,它数据来源于第三方,为第三方服务。例如,考拉征信的数据更多来源于股东数据,并经过多种方法去隐私。当建模以及真正给用户评分的时候,是需要授权的。涉及到隐私的时候一定要授权,这里存在严格的规定。
来自东南大学的一名老师对于教学过程中和前沿科技存在的差距向在座专家进行了请教。
朱文武回答,老师们整理自己的主线,把一些最核心的技术,比如数据挖掘技术,深度学习技术,讲给学生。第二个脱节问题在语言工具上,他建议现在大学应注重产业界当前使用的工具包,但重点还是在理论和基础方法。
何清认为,老师和学生们要注重走出去多和企业、产业界交流,多参加一些讲座和研讨会。但不要盲目,要冷静思考,多一些原创,多一些创新。
张锐表示,从产业界市场来说,希望学生们注重核心底层和核心技术,需要一个特别冷静诚恳的心,产业界应冷静的去对待学术界,学术界应给予产业界足够的帮助。
更多嘉宾观点,请关注大会直播专题(持续更新中):http://special.csdncms.csdn.net/ccai2015/。(编辑:周建丁)
本文为CSDN原创文章,未经允许不得转载,如需转载请联系market#csdn.net(#换成@)
大数据的机遇与挑战:清华、复旦、中科院、春雨移动及考拉征信专家的观点
发表于2015-07-30 22:42| 1260次阅读| 来源CSDN| 1 条评论|
作者刘崇鑫
大数据数据挖掘人工智能CCAICCAI2015摘要:围绕大数据与人工智能、大数据的科学原理与数据科学、非结构与半结构大数据的结构化、大数据的复杂性表达与数据社会、大数据的开放产权与隐私问题、大数据与人类健康、大数据与信用评分及社会管理七个话题同台论道。
为了更好地引导和推动我国人工智能领域的发展,由中国人工智能学会发起主办,CSDN承办的2015中国人工智能大会(CCAI 2015)于7月26-27日在北京友谊宾馆召开。本次会议的主旨是创办国内人工智能领域规模最大、规格最高的高水平学术和技术盛会,汇聚国内外顶级的专家学者及产业界人士,围绕当前最新热点和发展趋势的话题进行交流与探讨,并针对“机器学习与模式识别”、“大数据的机遇与挑战”、“人工智能与认知科学”和“智能机器人的未来”四个主题进行专题研讨,努力打造国内人工智能前沿技术和学术交流的平台。
中国科学院大学教授石勇
27日下午,“大数据的机遇与挑战”专题论坛在中国科学院大学教授石勇的主持下开始,他给出了讨论的7个话题方向:
大数据与人工智能
大数据的科学原理与数据科学
非结构与半结构大数据的结构化问题
大数据的复杂性表达和数据社会
大数据的开放,产权与隐私问题
大数据与人类健康
大数据与信用评分及社会管理
清华大学计算机系副主任、国家“千人计划”特聘专家朱文武,复旦大学教授、上海市数据科学重点实验室主任朱杨勇,春雨移动健康CEO张锐,中科院计算所研究员何清,以及考拉征信首席技术官葛伟平受邀参与了本次讨论。
清华大学计算机系副主任、国家“千人计划”特聘专家朱文武
清华大学计算机系副主任、国家“千人计划”特聘专家朱文武从大数据的角度探讨了大数据和人工智能、数字驱动知识驱动和大数据的结合等方面相关的问题。朱文武首先讲到,目前正处于一个很好的时代,人、机、物所产生的数据无所不在,我们通过各种各样的设备将数据采集起来,大数据将带来产业变革和商业机遇。
朱教授讲到:从科学发展上来看,数据科学是将成为科学发展的第四范式,数据科学,是数据爆炸将理论、实验、计算统一起来的学科交叉。从数据中能不能体现出规律,这样特点使得有原来的模型驱动,经验决策转变数据驱动、数据决策。
朱教授认为大数据产生网络世界、物理世界和人类社会三元空间中。里面存在的核心问题是异构关联和数据发现。大数据处理的问题就是怎么样找知识和知识之间的关系,数据驱动更重要的是要知识驱动相结合,之前是应用和服务,现在把大数据驱动和知识驱动结合起来,可能是更好的方法。
对于类脑计算,朱教授认为将来还有很长的路可走。现在我们国家都在启动脑科学这种大项目,重大国家部署。希望将来有一天类脑计算能够像人的思维方式做一些认知,做一些知识生成,而不是像计算机一样去计算。
复旦大学教授、上海市数据科学重点实验室主任朱杨勇
复旦大学教授、上海市数据科学重点实验室主任朱杨勇表示,从百度那里看到大数据的定义是当前技术不能处理的数据集,朱主任认为这对人工智能从业者来说是好消息,因为他们可以有更多的事情去做,很多项目可以申请;另一方面很多大数据成功的案例使得全国人民知道大数据很好。
大数据最大的改变在于决策方式,大到国家层面小到生活层面,大数据在决策中均可以发挥其作用。今天所讲大数据,和以前讲信息化是有区别的,并不是带上大数据的帽子就是大数据,朱主任认为大数据是指为据测问题提供服务的大数据集、大数据技术和大数据应用的总称。
他提出,大数据问题的关键技术挑战在于:找到隐含在低价值密度数据资源中的价值,以及在希望的时间内完成所有的任务。用数据解决问题和解决数据的问题,这两项工作结合起来结合起来就是数据科学。
中科院计算所研究员何清
中科院计算所研究员何清的主题是《大数据与人工智能》,首先他提出人工智能的三个标志性事件:1996年5月11日深蓝战胜国际象棋冠军,代表着专家知识搜索能力首次超过人类。2006年深度学习图像识别人脸识别问题语言翻译取得突破,这就是在机器特征学习能力方面在大数据背景下打造与人相当的成功。2011年2月14日WATSON在知识竞赛获胜,大规模知识工程自动化能力这种首次超过了人类。
三次人工智能的突破的技术基础包括:分布并行计算环境,专家规则知识搜索,非结构化信息处理, 类人认知学习过程。
对于大数据下如何发展人工智能,他认为:
以认知科学为基础,因为开发大数据就是要做知识发现,就是要做模式的识别,所有这些都离不开认知科学的发展。
以智能算法为核心,所有目标都离不开算法,没有算法的实现你就不可能发展新一代的人工智能。
以计算智能为手段。这个计算智能包括神经手段,包括网络,模型信息处理,也包括智能算法和计算机算法,目前信息计算智能不可能一蹴而就,而且相对来说很低。
人工智能多学科交叉的智能信息处理。在大数据算法中要注重数据构造,迭代性,收敛性,稳定性,实效性,因此要求输入可执行,可高效,而且要跟人脑的思维时间和速率有相当可比的成分。
何清最后介绍了大数据挖掘算法的特征和挑战,包括大数据集问题、数据复杂性问题以及数据动态增长的问题。解决的思路,是研究分布式并行计算环境下的大数据分析挖掘的基本策略、复杂度降低精度可控的算法以及集成算法构建大数据挖掘平台。
春雨移动健康创始人张锐
春雨移动健康CEO张锐主要分享了具体应用领域里面如何操作健康大数据,他具体分析了数字医疗核心——EHR。通过数据采集对数据监督,然后对数据进行干预。这是数字医疗方面的基本范式。他讲到EHR有四个方面:实时健康流数据,历时疾病数据,节点健康水平数据和健康消费行为数据。 其中,实时健康流数据主要采集的是人体心率、心电、血压、血糖、运动、体温、呼吸等生命体征数据,主要是来自可穿戴设备等。历时疾病数据来自各医院,但由于信息孤岛,有很大的应用障碍。 节点健康水平数据比如每年的体检数据。
他指出EHR给现代医学带来的变化,首先是从看医生到医生看你,从医生中心到用户中心,从医院中心到客厅中心,从治病挣钱到防病挣钱。并表示目前还有一些问题需要解决,比如中国用户EHR数据画像,EHR上下游硬件和EHR接口标准等。
考拉征信首席技术官葛伟平
考拉征信首席技术官葛伟平首先分享征信与数据的关系。他认为,数据和征信密不可分。数据是征信的基础,然后他分享在大数据以及其应用方面的一些体验:
征信涉及的数据种类比较多,所以要收集和利用能够反映能力或者意愿的数据, 如信用类数据、理财数据、公缴数据、消费数据,在移动互联网时代可以通过位置信息验证身份有效性,互联网信息也可以加入评估。
在处理这些大数据,把所有的数据处理和计算都放在Hadoop平台,用HIVE作为数据仓库,用IMPALA作为即时数据勘察工具,用R作为建模工具,积极使用spark。从这几个角度来看,大数据的成熟也给征信提供更多的方法。
征信建模,是采取传统统计理论和大数据技术联合建模,数据量越大,越能提升模型预测能力,处理能力越高,建模优势越明显。因此他认为大数据建模在以后会表现出越来越多的优势。
征信数据方面,中国跟美国差别很大,国家征信公司数据都很有特色,但是都不完备。所以征信数据上考拉征信采用原始明晰数据层做底层融合、外部标签数据拿过来做辅助补充以及模型层融合,共享相互之间模型建构,这个情况下我们再利用SPACE进行加工,达到数据融合,从而能更加准确地反映个人的信用。
在全体讨论环节,各位专家针对现场听众的问题作了详细的解答。
一位听众针对个人隐私方面,提出了在整合数据怎么处理数据边界以及关于隐私方面的交集的问题。
考拉征信首席技术官葛伟平回答:征信公司严格来讲它是第三方机构,它数据来源于第三方,为第三方服务。例如,考拉征信的数据更多来源于股东数据,并经过多种方法去隐私。当建模以及真正给用户评分的时候,是需要授权的。涉及到隐私的时候一定要授权,这里存在严格的规定。
来自东南大学的一名老师对于教学过程中和前沿科技存在的差距向在座专家进行了请教。
朱文武回答,老师们整理自己的主线,把一些最核心的技术,比如数据挖掘技术,深度学习技术,讲给学生。第二个脱节问题在语言工具上,他建议现在大学应注重产业界当前使用的工具包,但重点还是在理论和基础方法。
何清认为,老师和学生们要注重走出去多和企业、产业界交流,多参加一些讲座和研讨会。但不要盲目,要冷静思考,多一些原创,多一些创新。
张锐表示,从产业界市场来说,希望学生们注重核心底层和核心技术,需要一个特别冷静诚恳的心,产业界应冷静的去对待学术界,学术界应给予产业界足够的帮助。
更多嘉宾观点,请关注大会直播专题(持续更新中):http://special.csdncms.csdn.net/ccai2015/。(编辑:周建丁)
本文为CSDN原创文章,未经允许不得转载,如需转载请联系market#csdn.net(#换成@)
相关文章推荐
- HBase与MapReduce集成1-HBase2Hdfs
- taiping
- DT大数据梦工厂 温故而知新 之22讲
- DT大数据梦工厂 温故而知新 之21讲
- Cannot delete or update a parent row: a foreign key constraint fails(......)?
- 【HDU2476】【String painter】
- HDU 5352 MZL's City (2015 Multi-University Training Contest 5)
- 大数据系列修炼-Scala课程11
- scala学习记录之trait
- Attempting to initialize hardware acceleration outside of the main thread 处理
- codeforce Gym 100685E Epic Fail of a Genie(MaximumProduction 贪心)
- 2015 Multi-University Training Contest 5 1007
- HDU1532 Drainage Ditches
- DT大数据梦工厂 第77讲
- 2015 Multi-University Training Contest 5 1002
- leetcode:Container With Most Water
- 【leetcode】 database Duplicate Emails
- http://blog.csdn.net/a9529lty/article/details/6454156
- Fibonacci again and again(hdu1848+SG打表)
- 2015 Multi-University Training Contest 5