您的位置:首页 > 其它

有大招儿?请收下这份关于数据与智能的晋级攻略!

2019-07-09 20:27 531 查看

随着互联网+、人工智能、大数据、云计算等新技术不断涌现与成熟,数据、技术以及产业的深度融合并引发多种变革的趋势越来越明显。面对这样的热点趋势,时刻准备且创新活跃的数据科学人才究竟该如何把握这样的技术发展趋势并加以实践呢?



关于此,百分点特别来到武汉举办了主题为"数领先机 智汇未来—大数据与人工智能技术沙龙"的技术活动,与热情似火的数据技术从业者们共同探讨隐藏在内的技术先机。


现场爆满



从“数据智能”出发畅聊百分点平台与技术



话说,数据智能到底是一个什么概念?作为大数据领域的资深技术专家,百分点CTO刘译璟在“数据智能技术发展趋势”的分享中表示,其天然与大数据以及人工智能密切相关,甚至外延可以扩展到云计算以及物联网领域。


“数据智能最早在国内是2015年由百度先提出的,主要是通过数据的方式来描叙并分析遇到的现实情况并最终驱动业务更加智能化的发展。无疑,其中包含了很多技术,本质上需要坚信一点:数据可以对现实进行建模,通过这种方式确实可以有效理解现实如何运作。”他补充道。


百分点CTO 刘译璟


谈及未来数据智能发展的趋势,刘译璟表示可能会遵循几个方面:所有的技术都会走向逐步融合的态势,这一点是肯定的,很难再看到单一的应用场景,解决一个问题可能会动用多种技术,例如云计算、大数据以及AI等。例如在公共安防领域,需要使用到物联网技术来监控车辆状况,再凭借收集手段传输到云端以及完成数据清洗等,此外还需要利用商业智能作出有效预测……总之,在一个企业中或者某个解决方案中,采用单一的技术很难达成完美的效果。


此外,除了技术的融合之外,还涉及数据的贯通。过去数据是企业的附属品,而如今只有高效“动用”各类别且大量的数据才能将问题在多个维度解决好。在场景的融合中,过去数据只是聚焦在分析与洞察的领域,流程主要由业务部门负责,而如今闭环的形成越发迫切,即流程性的内容再加上决策才能联合驱动整个业务有序进行,形成一个更好的解决方案。


对此,他进一步阐释到,这样的融合性场景通常会彰显出几个特性:首先是实时性,毫不夸张的说,数据产生之后的几秒钟就要有下一步行为的判断,从“T+1过渡到T+0”亟待明确。“针对数据,我们更关心的是一份详细的报告,而不是一个简单的结果,归根结底需要的是数据的自然交互。所谓自然交互,不是敲击代码以及使用鼠标键盘,而是寄希望于系统具有更强大的自主性,从感知到认知以及决策,无所不能。


对于种种要求,刘译璟简要却很全面梳理了百分点的技术与平台带给现场的技术小伙伴,据了解百分点的技术解决方案中主要融合了大数据与人工智能,而人工智能部分着重在自然语言处理与知识图谱等层面。值得提及的是,其中所有分析处理的环节都是通过大大数据平台完成,包括可视化、智能化、系统化和协同化的特点。


具体来说,百分点的大数据平台融合了很多AI 的技术元素,并加入了实时与离线的处理技术,同时还适配了多云管理等;在认知智能层面,百分点以知识图谱为核心,通过刻画现实中的实体与本体之间的关联,在此基础上构建了一套多源异构的数据存储以及融合技术,无论是多维分析还是时空分析都可以妥妥做到。


“此外,在基础的自然语言理解方面,我们现在完全用到了深度迁移学习,主要解决小样本的问题。举个例子来说,过去可能需要300万条标注数据来操作,如今可能只需要3万条就可以解决同样的问题,人力成本得到大幅度降低,产品整体的更新迭代速度加快。


认真倾听技术分享



大数据平台构建挑战多多,听听百分点咋做?



作为本次沙龙的第二位分享嘉宾,大数据专家赵群进行了一场主题为“亿万级大数据平台建设实践”的技术演讲。据悉,百分点在2018年参与了一个大数据的国家级项目,在项目中做到了完全拥抱开源并搭建了一个亿万级别的数据平台,性能表现稳定出色。


百分点大数据专家  赵群


对此,大数据专家赵群选择从设计理念、项目中遇到的问题以及挑战、关于服务透明化的设计实践,还包括持续运维与监控设计等几方面着手,详细阐述了其中的技术关键。“基于这个大型项目,百分点的设计理念是什么?主要是几方面:透明化的技术平台、智能化的数据工具、行业化的数据资产以及场景化的数据应用等。”他补充道。


何为透明化技术平台?就是属于平台的所有组件,无论是技术能力还是适用的场景等都是透明化的,基于这种设计才能更好的保持其稳定性以及可靠性,更好地识别处理能力的强大与否,并做到很好地运维以及监控等。据了解,借助智能化的工具主要立足是否可以减轻人为工作量,降低企业的管理成本以及使用成本等。


至于如何利用智能化的工具来做数据资产?其实这个问题是具备行业特性的,无论是政府、公安还是企业方面各有不同。不过前提的一点,做数据资产很重要就是了解行业业务。集中在透明化技术平台这一方面,主要还是涉及到离线计算、批处理、实时处理组件、例如Stom、Flink等以及机器学习,比方说Spark、Hive、HDFS等。


对此赵群表示,其中涉及的问题也很多、颇具挑战。例如数据存储、实时处理、离线处理、数据查询以及系统运维等。具体来说,以平台项目为例,据悉作为亿万级平台体量,每天计算量高达100TB,其中写入吞吐200M/s,每天有2TB文件,如此数据量对实时处理的能力就提出了更高的要求。



除了对数据量的高吞吐要求之外,据赵群介绍,业务方还希望从处理到查询的延时需求小于30秒,简单来说就是数据流入30秒之后就需要做到查询和分析,最终的处理速度将达到200W/s,基于这种情况就需要熔断来保证整个平台的稳定性。


关于磁盘Raid的选择,他总结道:“毋庸置疑ClickHouse非常快,但在最初选型的时候由于需要更快的表现,就尝试使用了Raid,最终在上线的过程中做了切换,选择了Raid5,最重要的原因是减轻用户压力。


怎么来保证它的写入稳定?赵群认为很重要的一点就是禁止分布式写入。原因在于ClickHous在写入的过程中,每次提交之后都会在本地文件中生成个part,从而形成一个数据目录,周而复始prat会做合并形成一个大kart。这个过程的发生对磁盘以及CPU的性能要求很高,需要严格控制写入能力,保证稳定性。分享之后,数据技术从业者还针对“源数据那块定义能够覆盖这么多类型的数据”的问题展开了提问。


现场积极提问


精彩的技术分享仍在继续,气氛始终火热不减。





智能BI是终点?百分点增强分析技术来助力!



据了解,《Gartner 最新发布的魔力象限报告》中曾明确指出,未来增强型分析功能是 BI 产品发展的最重要、也是最显著的发展趋势之一;并表示在2020年,增强分析将成为新用户购买BI产品和机器学习平台以及嵌入式分析的主要驱动力,会有50%的分析查询通过搜索、自然语言来完成。而数据可视化专家代其锋就针对此项技术,现场带来了“增强分析技术在BI中的应用”的技术分享。


百分点数据可视化专家 代其锋


通过代其锋介绍,我们了解到,如今的BI 发展其实可以大致分为三个阶段。第一阶段主要从上世纪90年代开始到2000年,被称为传统BI。


之所以被称之为“传统”,是由于这阶段的BI主要以ETL、数据仓库和数据的可视化这几个技术为基础。“这个阶段的特点是ETL的工作会特别多,ETL处理之后,数据仓库中的静态数据很难直接被分析,受限于当时的技术发展水平,数据处理比较复杂且周期漫长。”他总结道。所以此阶段的BI 主要是IT人员在使用,因为数据分析师很难直接获取到有价值的数据,所以能做到额事情少之又少。


转眼来到第二阶段,也被称为“敏捷BI”。伴随企业业务发展、数据量积累逐渐增大,基于数据完成商业决策就显得越发关键。如何去做商业决策?其中更多需要分析师着手,前提是IT人员将数据都“准备”好。为何在此阶段被称为敏捷BI?代其锋认为随着技术进步,数据处理的能力越来越强,此阶段已经可以对数据进行实时的处理分析。


进一步来说敏捷BI 究竟是不是我们追求的终点呢?有没有更智能的方式来完成数据分析和处理呢?或许已经到来的智能BI能够给予我们答案,想必通过自然语言以及深度学习技术的加持,整个分析过程会变得更加智能化。



谈及智能增强分析的核心技术,他表示其主要利用AI去驱动BI的变革,其中的AI技术主要包括自然语言理解以及深度学习的理解。“自然语言理解大家都知道,通过这种技术可以更好地去理解人类语言,帮助与机器进行交互;而深度学习主要应用到包括CNN、LSTM等技术,主要用来让自然语言的理解更加精准,以及可以通过这些技术来帮助完成数据挖掘与分析等。


据了解,对此百分点的增强分析主要提供了包括智能推荐、智能问答、智能挖掘三大解决方案。在智能推荐方面,用户掌握数据之后可以让其不需要拖拽分析的操作就可生成报告;有关智能问答,主要是可以做到让用户通过自然语言与系统进行交互来反馈报告情况;此外通过智能挖掘,可以从海量的数据信息中找到隐含的有价值信息,提高企业生产率等。最后代其锋表示,目前增强分析已经成为一个重要的研究领域,包括很多国外的应用场景等,但是在国内的研究还属于刚刚起步的阶段。



了解动态知识图谱构建吗?百分点call你!



2012年谷歌提出知识图谱,本质上就是将互联网上的文本信息链接起来,以计算机可以识别和理解的方式;从不同的知识视角看知识图谱,解决问题的侧重点不同。例如从Web视角来看,它像建立文本之间的超链接一样来建立数据之间的语义链接并支持语义搜索;从NLP的角度来看,它是要解决如何从文本中抽取语义和结构化的数据;从知识表达的角度来看,是如何利用计算机来符合地表示和处理知识。


“从AI的角度来讲,它的侧重点是怎么样用知识库来辅助理解人的语言;从数据库的角度讲,就是如何用图的方式去存储这些知识,所以要想做好知识图谱,需要结合NLP、Web、ML、DB等各方面的知识技术。”知识图谱专家廖锐在主题为“动态知识图谱的构建方法”的演讲中表示。


百分点知识图谱专家  廖锐


如果尝试给“知识图谱”下个定义,其实可以理解为就是知识加上一个连接,而其中“知识”又可分为事实类的知识,概念抽象知识和哲学知识等不同类别。但至关重要的一点,知识必须得经过连接,如果没有就会是零散的,也没办法去进行归纳和推理。


据介绍,目前知识图谱已经在电子互联网领域的个性化推荐、智能客服、问答系统有了很广泛的应用;其他领域,例如公共安全领域、金融行业、智能金融、智慧法律、医药等也都应用迅速。例如如何去找到李伟这个人是否有泄密的线索?“我们可以从单一的事件,例如打电话、转账、是否居住酒店等,这些单一的行为中很难找到有价值的线索,毕竟现实生活中每个正常人都具备此类行为;如果从交互分析的角度判断,结合多个时空维度,才是找出相关线索的良方。


正如廖锐所言,知识来源于多个渠道,需要多源异构,更需要进行抽取、映射等过程,最终融合成为实体,进而建立模型并抽取关系等,最终成为知识图谱之后才能进一步做到知识分析、知识问答与知识挖掘等,由于数据来源于不同的数据源,需要转化为同源。另外,他强调构建知识图谱可能需要涉及一些知识要点,存在几个问题:DatoX在做元数据到本体映射时,因为单机和单线层的特征,其处理性能有限,后来百分点做了相应的改进;社区版的Neo4j,只有商业版才支持分布式。



尽管百分点针对数据与智能的精彩技术分享已暂时告一段落,但关于大数据平台构建、动态知识图谱处理以及增强技术等探讨依旧在火热进行中,敬请继续关注百分点技术沙龙的后续活动。

你点的每个“在看”,我都认真当成了喜欢
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: