周涛教授弟子王军与他的卧龙大数据
周涛教授弟子王军与他的卧龙大数据
中生代小编 中生代技术
王总,能不能谈一下你的从业经历?
07年开始在电子科技大学读计算机科学与技术专业,本科的时候带领梦飞无线工作室做了很多商业项目。11年开始在电子科技大学硕博连读,14年开始创立卧龙大数据。
请和大家介绍下你和目前所从事的工作 ?
我来自大城市——铁岭,电子科技大学大数据研究中心博士,卧龙大数据的创始人,公司是一家以大数据和人工智能技术为核心的金融科技公司,专注于为金融行业提供风控、营销相关的数据、技术和解决方案,我目前主要负责公司的运营和管理。
王总,卧龙大数据可以说是一家比较年轻的企业了,你如何看待互联网金融时代的到来?那么卧龙大数据在其中有哪些机会?你如何看待公司在行业内所面临的机遇和挑战?
互联网金融时代的本质还是金融,所以我们做事不能脱离金融的本质。我觉得作为一家金融科技型的企业机会还是很多的,我们应该能够解决很多传统金融机构解决不了的问题,但不管怎么样最后还是要回归到金融的本质。
王总能否谈谈公司在技术选型方面是如何抉择的?你觉得什么样的技术架构可以满足业务需求?当前流行的大数据技术,比如Hadoop,Spark, Impala, redis, kafka,你们公司是怎么选择的?前端技术呢?
公司出身于技术,扎根于技术。在技术选型上依据公司业务发展线条,在每一个技术模块选择业界稳定且活跃度高的技术框架作为解决方案。数据采集团队研究国内外前沿采集技术,并按照业务需求深度定制,研究计算机网络与分布式系统,构建分布式高性能采集框架。 此外,公司研究Hadoop生态系统与Spark平台源码,依据公司实际数据业务选择模块与模块深入定制(包括HDFS,Yarn,Spark,Impala,Hive,HBase,Hue等模块),并以可视化分析平台与可视化管理平台承载数据管理,数据存储,数据分析等功能。
在前端业务领域,我们秉承稳定为主,适度超前的理念,并针对特定的业务场景,选用合适的语言和框架来完成业务需求。比如针对稳定性,数据安全性,访问性能要求高的消费类场景选用JAVA和大型关系型数据库,并构建分布式集群以应对高并发需求,使用redis等内存数据库保证系统毫秒级响应速度。针对偏日志分析类等要求相对不高的场景,使用Python语言开发,配以mongodb集群,在牺牲一定的准确度的情况下充分发挥非关系型数据库的高性能。针对内部信息系统的建设场景,更多基于开源系统进行深度定制开发,在满足需求的前提下最小化成本支出
互联网型的创业公司,一般提倡“天下武功,唯快不破”。请问王总,能不能介绍一下贵公司的技术团队的规模组成情况?贵公司的发布周期一般是多久?你如何评估你们团队的研发效率?
我们的技术团队大概有40人左右,我们大概是每两周就会有一次产品的迭代和更新,我们研发团队的效率在成都应该算是比较高的了,但和北上比可能还是要弱一些。
王总,大数据公司很重要的一点就是如何对待数据,对于贵公司而言,是如何对待纷繁复杂的数据,这些数据是如何采集、如何处理,能否分享一下这方面的经验呢?比如存、管、用这三个方面。
我们公司的数据是在公司还没有成立之前就在做积累,我们的数据主要是通过爬虫和API的形式获得,还有很多合作伙伴。存是一个技术层面的问题,我们有很多不同应用场景的存储方案。管和用我们做了很多限制,首先考虑的就是数据如何被安全合法的使用。
王总,贵公司的互联网金融产品在大数据风控方面如何建模?如何根据大数据评估用户信用?有效性如何保证?
卧龙自身拥有海量电商、社交等高价值大数据,并通过用户提交基本信息,用户授权运营商等获得其他多维度数据。
a、建模首先对获取的多维度的大数据进行有效打通,并清洗异常数据,然后通过卧龙独有的特征机器人进行特征挖掘、整合以及评估,最终挑选最优异的topN特征进入模型进行建模。
b、卧龙大数据建模包括反欺诈建模、还款意愿模型、还款能力模型三个子模型,并通过领先的GBDT、神经网络等复杂机器学习算法进行模型融合,产出最终的信用模型。
c、有效性从三个方面进行保证:有效的数据是基础,正确的样本是核心,精准的模型是保证。卧龙首先会对打通的数据进行严格的清洗,任何异常都会进行仔细的分析并进行清除。对于建模样本,我们会通过准入规则政策排除异常样本、观察期分析确认时间窗口、滚动率分析确定等综合确定建模好坏样本。
最终对于模型的有效性会在建模过程中层层把关, 通过建模时验证数据集测试、线上 A/B test测试 ,模型灰度发布监测,如有测试异常则重新建模。
通过层层测试后,发布上线也会通过PSI等指标对模型进行实时监控,出现异常及时修复。以此保证模型的及时有效。
王总,你觉得一个好的研发团队有那些特征?
对于一个创业公司而言研发团队最需要的特征就是学习能力和执行力,技术发展变化很快,学习能力必不可少。你刚刚也说了唯快不破,所以执行力也是很重要的
王总,你觉得一个好的TeamLeader应该具备哪些素质?
首先要有开放的胸怀才能把事情做大。其次作为一个好的TeamLeader要能够把所有人团结在一个共同的目标下,形成强大的执行力。
王总,能剧透一下你在中生代年度大会(成都站)的分享题目吗?
大数据风控
非常感谢王总,期待您在中生代年度大会的分享,3.18成都见。
- 专访CMU邢波教授:机器学习与医疗大数据,及大规模机器学习系统的开发
- 用中国截面数据和OLS在JPE发文, 这个外国教授凭啥这么牛!
- 数据可视化(全彩)(大数据丛书,首次全面细致地梳理了可视化理论,方法、工具与应用案例。马匡六教授、石教英教授鼎力推荐,十二五国家重点图书出版规划项目)
- 大会共同主席中科院计算所所长孙凝晖教授:大数据继云计算和物联网之后成为第三热词
- 我们请来了2017 NIPS大会发文数全球前3的华人教授,讲解网络数据的表征学习(视频+PPT)
- 【重磅】清华大学法学院教授何海波:以数据推动法治(视频+PPT)
- EASYRECOVERY_3.3.29包含注册机、都教授数据恢复含注册码
- 数据挖掘与商业智慧:华通二十年专题----台湾辅仁大学谢邦昌教授访谈(转载)
- 【工业大数据】张洁教授现场剖析制造业大数据制造的思考与实践
- 上海高级金融学院李晓阳教授:大数据带来思维变革
- 国际著名数学家——夏志宏教授受聘大快搜索,助力提高大快大数据科研力量
- 京东又有AI科学家加盟:加拿大大数据教授裴健入职,向刘强东汇报
- 热烈欢迎云南财经大学统计与数学学院院长石磊教授来芝诺数据视察指导工作
- fmri的图像数据在matlab中显示,利用imagesc工具进行显示,自带数据集-by 西南大学xulei教授
- 北大教授王汉生:大数据被神化
- 机器智能加速器:大数据环境下知识工程的机遇和挑战 | 清华李涓子教授
- AI:2020年6月23日北京智源大会演讲分享之AI交通专题论坛——11:05-11:35杜博文教授《基于广义时空数据挖掘的交通复杂行为认知-从研究到工业》
- 长江商学院营销学李洋教授分析大数据与精准营销
- 数据可视化(全彩)(大数据丛书,首次全面细致地梳理了可视化理论,方法、工具与应用案例。马匡六教授、石教英教授鼎力推荐,十二五国家重点图书出版规划项目)
- 中央财经大学教授黄震表示区块链不只是监管对象,也要成为监管服务的工具,大数据、人工智能、5G、物联网