您的位置：首页 > 大数据 > 人工智能

【人工智能】未来企业建设AI需三大平台；仅靠算法不能落地智能，企业需要AI核心系统

2018-01-27 00:00 1101 查看

近日，由极客邦科技、InfoQ中国主办的“AICon人工智能与机器学习技术大会”在京举行。第四范式联合创始人、首席架构师胡时伟应邀出席并发表主题演讲。他认为，未来企业真正需要的不再是单个算法或者解决方案，而是可以基于自身数据，自动生成AI能力的企业AI核心系统。演讲中，胡时伟还分享了企业构建自主AI能力的最佳路径。

以下为演讲全文，略有删减：
随着AI技术的发展，语音、图像技术成功为某些业务场景提供了人机交互的接口，但对于业务本身来说，如何能用AI技术进行强化，未来企业该如何拥抱AI，是今天我想与大家探讨的内容。企业未来将由AI制定策略
在企业中，员工一般会分为3种角色，分别是“战略制定者、策略制定者、策略执行者”。战略制定者负责企业全年业务规划，资金分配等重大战略布局；策略执行者则在基层为完成战略目标，执行细化的指令。那策略制定者负责什么呢？举个例子，对于一个产品型公司，给什么用户营销什么产品就是一个典型策略制定过程。因为这关系到一二线的决策和管理，所以它其实是企业最为关键的环节。以前，企业会通过BI，把客群分类，把用户打上标签，然后决定给什么样的用户提供什么样的服务。而在未来企业的生产经营中，这些具体的战术和打法将由机器直接制定。以反欺诈为例，国际上知名反欺诈公司，会雇佣庞大的业务专家团队研究各类案件，最终可以总结出几百到数千条规则，来判断交易欺诈的可能性。而第四范式通过机器学习，可以生成二十五亿条规则，在同等情况下，业务效果比专家规则提升了数倍到数十倍之多。
那么，机器是如何具备决策能力的呢？这里要引入“库伯学习圈”理论，它是讲人通过“经验、反思、理论、行动”形成学习闭环，从而不断成长。如果让计算机开始学习，就要将教育学里面的每个步骤对应到计算机可以理解的概念。“行动”是“过程数据”，“经验”是“反馈数据”，“反思”是“机器学习”，最后形成的“理论”叫做“AI模型”。将这个模型直接对接到业务上，就可以辅助人进行大量商业分析与决策，成为一个可以完成策略制定的AI应用。

企业AI核心系统建设需三大平台
那如何判断一个AI应用是否合格呢？关键指标有三个：第一个是保证高业务效果。让机器给你诊断病情，如果误诊率高，就不能称之为人工智能。第二是持续自我进化能力。机器需要不停地更新的数据和自我学习的能力。第三是成本足够低。成本如果过高，即使有效果，产生的业务价值也是负的。因此，降低门槛和成本，是企业应用AI的关键。一个企业想要完成上述三个指标，我们认为，需要建设数据、算法、生产三个核心平台，据此，第四范式自主研发了“先知平台”。
实时高效的数据平台数据分析和处理在AI中的重要性毋庸置疑，但以往，数据清洗和组织环节会占用数据科学家大多数的工作时间。除此之外，还有其他关键问题也会影响AI应用的成功性。比如，模型在线下训练好后，线上的效果特别差。这是为什么呢？原因有二。其一是线上和线下不一致，由于格式、长度等技术层面的不一致，导致机器无法理解在人看起来理所当然是一致的信息；第二个是用未来的数据去对现在进行预测。例如，我们要预测哪些用户会买大闸蟹礼品卡，最后，模型出现一个关键变量是客户级别。我们发现金牌用户买大闸蟹礼品卡的比例较高，但这样的模型有一个问题是，这些客户不是因为是金牌客户才会买，而是因为买大闸蟹的金额较多，变成了金牌客户。这两者之间的自然发生顺序和我们的训练、预测顺序正相反，这就会导致模型完全无效。
除此之外，数据平台还要解决联机交易实时性的问题。因为实际大量的智能干预场景，都需要在几十毫秒之内就完成决策判断。传统大数据平台基础设施技术参数虽高，但是面临AI的海量维度，则往往会退化到几百毫秒甚至秒级。因此，数据平台的数据服务基础设施也需要改进。所以，第四范式改变了数据平台的架构，将生产环境的实时数据不经改造，存储到两个不同的数据库中，使用同源数据完成训练和预测过程。同时，我们还做了一些基础的工程建设，例如要判断一个交易是不是欺诈，需要获取近三个月的交易历史，从历史数据中，计算出几千个类别的变量。所以，我们希望开发一个高性能的数据库，这样从数千万数据中，取出一千行二百个列的历史交易生成两千个变量，就可以在十毫秒之内完成。我们分析了一下开源的关系型数据库和KV数据库，都满足不了毫秒级的海量数据抽取的需求。也分析调研了一些时序数据库，响应时间波动都很大，满足不了TP9999 50ms的硬实时需求。因此我们开发了RtiDB。对比来看，RtiDB存储的空间只占到VoltDB的10%。这样就可以存储更多的数据，并构建更为庞大的模型。另外，它的时序抽取耗时性能也是VoltDB、Redis等产品的几倍。

除了存储升级以外，我们还标准化了特征工程过程，使用一种简易的领域特定语言，描述数据变换和特征生成的过程，实现快速生成海量高维特征的能力。此外，我们还提供了一个特征工程工作台，方便开发人员完成这个过程。以往，我们通常要写Python或者Scala程序来做这件事情。而在第四范式研发的“先知平台”中，通过写一些简单的接近自然语言的指令，就可以自动完成变量的组合、分桶、变换等过程，然后完成编码，映射到高维空间。
可大幅降低AI门槛的算法平台如何降低建模门槛呢？因为机器和人一样，都是通过数据去学习，所以，当我们给系统输入足够的过程数据和反馈数据时，机器就可以自动建模型。我们提供的算法平台有两个阶段。第一阶段是用工具和平台帮助科学家完成建模；第二阶段是在某些成熟的技术条件下，让机器自动完成建模过程。

在第一个阶段，我们将整个建模过程Web化。建模Web化并非不存在代码，而是通过可视化、结构化的管理工具，让不可控、复杂的开发过程，变成清晰的描述和定义过程。最终，在这个平台上，无需经历编码、编译、调试的过程，只需要在页面上进行一些基于数据理解和业务理解的指令，即可构建一个有效的机器学习模型。
第二个阶段——让机器自动建模相对来说更难。要做到这一点，就要把人理解数据，理解数据和业务目标之间关系的工作自动化。首先，要解决特征删减问题。传统的建模需要做特征删减，因为数据量小，且线上系统无法支撑大数据量。但在大数据时代，这个选择过程可以通过技术手段省略。其次是特征的变换、组合和时序等高级特征工程。这也是机器学习需要建模工程师的原因，因为每个业务数据不同、目标不同，选择的特征集就不同。我们自动根据数据和目标之间的关系，减少人的工作量。为此，先知平台做了两件事情，第一是自动探索特征组合和特征分类，第二是基于标准时序特征工程的自动。最后就是数据拼接，例如银行历史数据有成百上千张表格，应该怎么拼成最后的样本，这件事情相对来说更加复杂，我们还在不断探索中。当然，企业构建AI能力，除了上述所讲之外，还要做其他的一些事情，特别是基于知识图谱的特征增强。而正是依靠知识图谱技术，第四范式在做交易反欺诈过程中，用地理位置的知识图谱做了特征增强，最后贡献了10%的业务效果。
易于模型上线的生存平台最后讲一下生产平台的特性。现如今，很多机器学习平台只解决建模问题。而生产过程中要解决的是，将数据服务、算法任务、自学习、线上预估服务等基础能力服务化，成为AI应用运行态的载体。生产平台是机器学习应用构建的另外一个关键因素。如果没有生产平台，我们去客户那里进行模型投产，会面临很多问题。因为机器学习需要用到线上数据来进行训练和预测，而机器学习系统的调试也需要使用真实数据进行。但是监管下的行业，使用生产数据的环境被认定为生产环境，在生产环境中，任何一行代码更改都需要经过严格审批，出现任何异常错误报警，都需要被监控在案。这会带来相关业务负责人很难承担的风险，也影响了很多创新的方法和技术实际投产，导致大家不得不选择一些保守过渡性方案。拥有生产平台，可以对这些过程当中的操作进行抽象并且实现标准非开放式编码界面，提供安全可控的限制性环境，使得机器学习应用上线部署既能够符合已有IT监管的需求，又能够完成基于真实数据的测试和调整。同时，基于此平台构建的标准应用，无需额外定制性开发，就可以拥有高可用，多租户，监控报警等企业级特性，减少机器学习应用的实施复杂度及管理成本。最后，生产平台上的应用标准化，也有利于企业核心知识能力的标准化积累与传承。

最后，总结一下企业如何拥有AI能力。首先是确定内部业务AI化的目标，知道优化哪些业务和流程是对自己最有帮助，并且能够用现有的AI技术解决；第二个是规划并构建AI基础设施和软硬件环境，包括采集、处理解决问题相关的数据，构建机器学习训练系统和线上服务系统的基础设施（数据、算法、生产三大核心平台的建设）；最后是招聘、培养构建AI应用的角色人员，组成构建企业AI应用的专业团队。

仅靠算法不能落地智能，企业需要AI核心系统

AI改变的实质是越来越多策略制定的工作交由机器完成，企业正在改变通过购买“技术方案”来缓解一时之需的解决方式，未来所有企业都会建立起自己AI核心系统，具备自主研发AI应用的核心能力。
近日，在由中国人民银行《金融电子化》杂志主办的第八届“中国金融科技年会”上，“第四范式先知”3.0企业AI核心系统荣获“2017年度金融科技优秀产品创新奖”。同时，第四范式创始人、首席执行官戴文渊作为人工智能领域杰出专家代表，发表主题演讲并深入阐述了上述观点。

以下为演讲全文，有适度删减：

AI开始接管越来越多的“策略制定”工作
在企业中，一般会有三种角色。第一种角色是战略制定者，通常是企业的高层；第二种角色是策略制定者；第三种是策略执行者，通常是企业的基层。在互联网和移动互联网时代，越来越多的企业将策略的“执行”交给计算机，但在今天的AI时代，AI改变的实质是什么？我们发现策略制定的工作，也在慢慢地交给计算机来做。相比于过去依靠人来制定策略，机器制定策略的优势更为明显。例如，我们和瑞金医院合作了一个项目，是对未来三年糖尿病患病概率进行预测，我们帮助瑞金医院探索出50万条判断规则，而在此前，中、美两国的传统判断标准只有10-30条，这是数量级层面的巨大提升。此外，在金融领域，过去业界认为最好的反欺诈模型是1000条规则，这是顶级专家能做到的极限。而现在，我们帮助某国内领先的股份制商业银行，可以找到超过25亿条规则。再比如，在内容分发领域，千人千面的个性化推荐应用开始备受推崇，那如何才能做到个性化内容推荐？实际上，只要当业务规律数超过人数，每个人都可以被不同规律覆盖，就能做到个性化了。

企业真正需要的是自主生产AI的能力
未来，依靠机器做决策的场景会越来越多，然而企业光靠顶级科学家一个一个去做AI应用，效率太低，无法推广。企业真正需要的不是算法、不是海量的科学家，而是一个AI核心系统，它能够让企业基于自己的数据，自动生成人工智能的能力，从而协助甚至是取代人类进行决策。因此，第四范式打造了“先知3.0”，打通了从数据到业务的闭环，将机器学习产生智能的能力，与企业业务环节连接，形成了一个“机器学习圈”。 “机器学习圈”与人学习的过程类似，分为行动、经验、反思和理论四个步骤（基于教育学理论“库伯学习圈”）。人类学习的过程是先完成一个行动，然后收集到一些关于该行动的反馈，再针对行动和反馈进行思考，最终形成理论，更好的指导未来的行动。如果要让计算机做这个事情，就要将教育学里面的每个步骤对应到计算机可以理解的概念。行动是过程数据，经验是反馈数据，反思是机器学习，最后形成的理论叫做AI模型，该模型直接对接到业务，辅助人进行大量商业分析与决策。

企业AI核心系统如何应用在业务中？
基于“机器学习圈”理论，在不同场景下，企业AI核心系统会帮助企业收集产生人工智能所需要的过程数据、反馈数据，再通过封装的超高维机器学习技术，形成各个场景下的“学习理论”，即AI模型，并完成上线生产与应用，实现不同场景的智能化。例如，使用“先知3.0”构建这样一个“千人千面”的智能推荐系统大致需要四步：1、行动：先让系统推荐给用户一些文章，或者根据用户初始登陆时自行选择的兴趣标签推荐一部分内容。2、反馈：系统推荐的文章用户是否浏览？浏览时间多长？是否连续浏览相同主题文章？这类用户行为会演变为数据反馈给系统。3、反思：通过以上的用户行为数据，机器开始学习并总结用户的阅读喜好。4、理论：针对用户行为的反思结果生成一套理论，并直接指导线上的推荐业务，从而使应用的推荐更加精准。并最终回归到行动，继续积累行为数据与反馈数据，并以此周而复始，智能不断迭代。
先知3.0就是要帮助企业构建这样的AI核心系统。这个核心系统解决了企业应用AI化的所有问题，其中包括过程数据、反馈数据的采集、海量日志管理、机器学习、实时服务等。核心系统的背后，包含了很多门槛非常高的技术，但对于企业主来说，已经无需再关心这些技术问题。

根据德勤报告，到2020年，95%的前一百名公司会采用机器决策。“第四范式先知”企业AI核心系统的推出，为企业建立高度灵活自主的商业智能体系提供基础，扭转了一些企业在智能化转型与竞争中的被动局面。未来的商业世界将由战略管理者协同企业AI核心系统的联合体来主宰。

机器学习在工业应用中的新思考

机器之心整理发布编辑：虞喵喵、蒋思源
第四范式联合创始人、首席研究科学家陈雨强是世界级深度学习、迁移学习专家，曾在 NIPS、AAAI、ACL、SIGKDD 等顶会上发表论文，并获 APWeb2010 Best Paper Award，KDD Cup 2011 名列前三，其学术工作在 2010 年作被全球著名科技杂志 MIT Technology Review 报道。
陈雨强也是机器学习工业应用全球领军人物，在百度凤巢任职期间主持了世界首个商用深度学习系统、在今日头条期间主持了全新的信息流推荐与广告系统的设计实现。陈雨强目前担任第四范式首席研究科学家，第四范式在人工智能领域科研技术领先，刚刚揭晓的「第六届吴文俊人工智能科学技术奖」，第四范式荣获一等奖，该奖项代表国内最高科研实力。
此前，陈雨强在机器之心精品线下活动中，给业内人士分享了其对于机器学习在工业应用中的新思考。以下为活动现场的速记整理。

我是来自第四范式的陈雨强，负责人工智能算法研究、开发等相关工作。就我此前在工业界的经历，今天跟大家分享的是——「机器学习在工业应用中的新思考」。

正在改变的公司和行业

人工智能在工业界越来越火，过去五年火热程度以指数的方式上升。不管是在公司内部，还是在公司之间、行业之间，人工智能正在变成一个炙手可热的名词。从公开资料上可以看到，Google 和 Facebook 在 2012 年时，只有搜索和推荐等几个少数核心项目使用了机器学习。随着时间推移，到 2016 年第二季度，Google 已经有超过 2000 个项目和产品正在使用深度学习。同时也有报道称，Facebook 已经有超过 17 个大团队、超过 25% 的工程师正在使用机器学习。也就是说，在互联网行业巨头里、公司内，机器学习的影响力正在从少数几个产品迅速扩展到更多的场景。另外，我们发现一个很有意思的现象，就是 AI 慢慢扩展到全行业的影响，当前的趋势正在从之前的「互联网+」或者「移动+」，慢慢转向为「AI+」。比如滴滴是「互联网+打车」，美团是「互联网+O2O」，很多公司之前做的是「怎么用互联网改变传统行业」。但是现在，他们纷纷转向「如何用积累下来的数据提供更多的价值」。还有一些公司，从创立初始就是「AI+」，比如今日头条是「AI+新闻」、大疆是「AI+无人机/机器人」。我们可以看到，AI 正在慢慢渗透到并且改变所有的行业。
在跟大家分享之前，介绍一下我的个人经历。AI 大潮的热度从 2010 年初开始呈指数上升，我非常幸运地赶上了这个大潮。我在学校时主要做人工智能和机器学习的相关研究，具体包括迁移学习等，也在 AAAI 、NIPS、SIGKDD 等会议上有论文发表。

毕业之后我去了百度，所在的部门负责百度的搜索广告系统——凤巢系统。这个阶段面对的是解决一个公司的一个问题，即「如何提升搜索广告的点击率」这个问题。当时我做的事情比较偏纯技术，即怎么让深度学习应用到大规模的机器学习中。我们有上千亿个特征，怎样设计一个模型应用深度学习。我们当时上线了世界上第一个使用深度学习的商用系统。

从百度离职之后我去了今日头条。在头条时面对的产品线更多了，除了主信息流推荐以外，小频道推荐、视频推荐，包括信息流广告、评论排序等等，有非常非常多的应用方向。所以在今日头条，我面对的是一个公司内很多很多的业务与问题。对当时的头条来说，时效性是非常重要的。除了在技术上设计一个追求极致的时效性以及极致的性能与规模的机器学习系统之外，我还做了一件很重要的事情，是设计了很多机制，让这些人工智能技术能用在头条的各个产品线之中。举个例子，人工智能或者机器学习的算法其实是一个发动机引擎，机制是传动的齿轮，怎样把引擎的动力以最有效的方式传动到各个部件，这是机制所做的事情。所以除了需要关心技术之外，还要关心产品与机制创新。
从今日头条离开后来到第四范式，我们面对的业务、行业会更多。金融、电信、互联网，各种各样的行业，包含营销、获客、风控、推荐、排序等各种各样的问题。在第四范式我面对的，是各行各业不同场景的不同问题。
可以看到，我的经历是从解决一个公司的一个问题，到解决一个公司的很多问题，到解决各行各业的各种问题。这些经历给了我很多思考，比方说如何做一个追求极致的人工智能系统？如何在一个公司内让更多的产品使用人工智能？如何让更多的行业使用人工智能？在人工智能在公司内与行业间爆发的现在，这个是我想分享给大家的。
人工智能成功必要的五个必要条件

为什么人工智能在最近的一段时间非常火？为什么人工智能在 20 年前、10 年前没有这么火？为什么 AlphaGo 能在今年打败李世石而不是更早？我们直观的会认为是因为算法创新。但是算法创新只是其中一点，国内外很多专家分析总结出了人工智能成功的五个必要条件，这里跟大家分享一下：
第一，边界清晰。问题需要定义得非常清晰，比如 AlphaGo 做的是围棋，围棋是在 19×19 的棋盘上，黑白两方轮流下子的问题，有吃有打劫。如果变成一个开放的问题，变成 20×20 的棋盘，变成黑白灰三方下棋，或者把打劫规则变一下，都会导致人工智能的失败。
第二，外部反馈。算法要不断的有外部输入，知道我们在什么样的情况、算法做出什么样的行为下，外部给出的反馈是什么，这样才能促进提高，比方说需要 AlphaGo 不断地进行对弈，并且告诉它对弈的输赢。
第三，计算资源。近些年算法虽然有很大的进步，但计算资源也是产生智能的关键。最近业界在分布式计算上的成功，让我们相对于几十年前有了飞跃的基础。举个非常有趣的例子，Google 在描述 AlphaGo 不同版本的时候，为了简洁明了，直接使用计算能力来分类，而不是使用算法来分类。简版的 AlphaGo 被称作「单机训练的 AlphaGo」，复杂、更高智能的 AlphaGo 称为「多机、并行训练的 AlphaGo」，从这里也可以看出，计算资源起着至关重要的作用。
第四，顶尖的数据科学家和人工智能科学家。增强学习、深度学习最近重新被提出，需要很多科学家大量的工作，才能让这些算法真正的推行，除了围棋、视觉、语音之外，还有非常多的领域等待被探索。
第五，大数据。AlphaGo 的成功，关键的一点是 KGS 棋社的流行，KGS 上有数十万盘高手对战的棋谱，没有这些数据 AlphaGo 绝对不可能这么短的时间内打败人类。这些要素总结起来只有三点：一方面是技术，计算资源和大数据方面的支持；一方面是业务，边界要清晰，业务有反馈；另一方面是人，包括科学家，包括应用到场景需要和人打交道。所以如果一个 AI 要成功的话总结起来三点，要关注技术、要关注业务、要关注人。
工业界需要可扩展的机器学习系统人工智能的兴起是计算能力、机器学习以及分布式计算发展的结果。在实际的工业界之中，我们需要一个可扩展的机器学习系统（Scalable Machine Learning System），而不仅仅是一个可扩展系统（Scalable System），那什么是可扩展的机器学习系统？

第一点，数据处理的能力随机器的增加而增加，这是传统的可扩展。第二点，智能水平和体验壁垒要随着业务、数据量的增加而同时增加。这个角度的 Scalable 是很少被提到的，但这个层面上的可扩展性才是人工智能被推崇的核心原因。
举个例子，过去建立竞争壁垒主要通过业务创新快、行业内跑马圈地，或是通过借助新的渠道（比方说互联网）提升效率。在这样的方式中，由于产品本身相对容易被抄袭，那么资本投入、运营与渠道是关键。但随着数据的增加与 AI 的普及，现在有了一种新的方式，就是用时间与数据创造壁垒。举个简单的例子，如果现在去做一个搜索引擎，即使有百度现成的技术现在也很难做得过百度，因为百度积累了长时间的数据，用同样的算法也很难跑出一个比百度更好的搜索结果。这样如果拥有能用好数据的人工智能，就会获得更好的体验，反过来更好的体验又会带来更多的用户，进一步丰富数据，促进人工智能的提高。可以看出，由人工智能产生的竞争壁垒是不断循环迭代提升、更容易拉开差距的高墙。
可扩展的机器学习系统需要高 VC 维那么，我们怎么能获得一个既拥有高智能水平又能 Scalable 的学习系统呢？
60 年代 Vapnik 和 Chervonenkis 提出了 VC 维理论，形式化的描述了机器学习算法对复杂函数拟合的能力。对 VC 维的理解，可以举个简单的例子就类似于人大脑内的神经元，神经元数量越多，这个人可能就越聪明。当然，这个不是绝对的，智商高的人比一定做出来的成就是最高的，这里关键的一点是个人的经历也要多，之后经历过很多事情、并且有思考的能力，才能悟出道理。在机器学习中，VC 维度讲的也是这个道理。

教科书上的 VC 维都是上面这样的一张图。因为过去的数据不大，训练损失函数在不断下降，测试损失函数在不断的上升，要避免过拟合，VC 维就不能太高。比如你是个很聪明的孩子，但是在很小的时候不能让你过多的思考瞎琢磨，否则很有可能走火入魔。过去对我们教导是在你经历不多、数据不多时干脆傻一点，就没有那么多精力去思考乱七八糟的事情。这是当时大家觉得比较好的解法，控制 VC 维，让训练数据的 Test Loss、Training Loss 同时下降。
但随着时代的不断发展，数据也是在不断增多的，我们的观点有了新的变化。在数据量比较小的时候，高 VC 维的模型比低 VC 维的模型效果要差，产生了 over-fitting，这只是故事的一部分；有了更多数据以后，我们发现低 VC 维模型效果再也涨不上去了，但高的 VC 维模型还在不断上升。这就是刚才说的智能 Scalable 的概念，在我们有越来越多数据的时候，要关心的是 under-fitting 而不是 over-fitting，要关心的是怎样提高 VC 维让模型更加聪明，悟出大数据中的道理。
总结成一句话，如果要成功在工业界使用人工智能，VC 维是非常重要的问题。
工业界怎么提升 VC 维呢？我们知道「机器学习=数据+特征+模型」，如果已经有很多数据，提升 VC 维的方法有两条：一种是从特征提升，一种是从模型提升。我们把特征分为两类：一类特征叫宏观特征，比如描述类特征如年龄、统计类特征如整体的点击率、或整体的统计信息；另一类为微观特征，最典型的是 ID 类的特征，每个人都有特征，每个物品也有特征，人和物品组合也有特征。相应的模型也分为两类，一部分是简单模型如线性模型，另一类是复杂模型如深度学习模型。这里，我们可以引出工业界机器学习四个象限的概念。
模型 X 特征，工业界机器学习的四个象限

工业界具体怎么做的？第一象限是简单模型加上宏观特征，在现在的工业界比较难以走通，很难得到极致化的优化效果。这个象限内，有七八十年代专家系统，还有一些统计模型。大家比较熟悉的 UCI Data 就是支持这个时代研究的典型数据，每个数据集有 1000 个左右的训练数据，分的类数也不多，特征也不多。对于这样的数据统计模型比较盛行，要解决的问题是怎样找出特征之间的关系与各自的统计特性。
第二象限是简单模型、复杂特征，最成功的典型案例是 Google AdWords。Google 在很多技术上都是开山鼻祖，包括整个计算广告学。Google AdWords 有上千亿的特征，每个人、每个广告、每个 Query 的组合都在其中。这种模型非常成功，给 Google 带来了非常大的收益。Google AdWords 占 Google 70% 以上的收入，Google 的展示广告也是用的这样的技术，占了 Google 大概剩下的 20% 左右的收入。
第三象限是复杂模型、宏观特征典型的应用，比如 Bing ads，2013 年他们提出 BPR（Bayesian Probit Regression）来 Model 每个特征的置信度。雅虎也是第三象限忠实的传道士之一，大家所熟知的 COEC（Click Over Expected Click）这个算法就是雅虎提出的，在上面做了很多模型。其次他们还设计了很多模型解决增强学习问题，比如多臂老虎机等等算法。很多雅虎出去创业的同事最常使用的机器学习技术就是统计特征加 GBDT（Gradient Boosting Decision Tree），通常能获得非常好的效果。
第四象限，复杂模型和微观特征，现在还是热门研究的领域，它最难的一点是模型的规模实在太大。比如广告有上千亿的特征，如果做深度学习模型一个隐层有 1000 个特征，可能会有万万亿级别的参数。虽然数据很多，但万万亿的数据还是难以获得的。所以怎么解决这个角度的模型复杂问题、正则化问题，目前研究还是一个热点的研究方向。
如何沿着模型优化？

沿着模型优化主要由学术界主导，新的模型主要来自于 ICML、NIPS、ICLR 这样的会议。他们主要的研究是非线性的，总结起来有「三把宝剑」：Kernel、Boosting、Neural Network。Boosting、Neural Network 现在非常流行，Boosting 最成功的是 GBDT，而 Neural Network 也在很多行业产生了颠覆性的变化。大约十年前，Kernel 也是很流行的。借助 Kernel，SVM 有了异常强大的非线性能力，让 SVM 风靡了 10-15 年。优化模型的科学家们为了实验的方便，对工程实现的能力要求并不是特别高，大部分模型是可以单机加载的。要解决的实际问题主要是数据分布式，降低数据分布式带来的通讯 overhead 等问题。
对于工业界中的具体问题，基于思考或观察得到新的假设，加入新的模型、结构，以获得更多的参数，这是工业界优化这一项限的步骤。

以时序动态的协同过滤为例，我们这里引用的是 Koren, Yehuda 在 2009 年在 KDD 上发表的论文 Collaborative filtering with temporal dynamics，这是时序动态协同过滤被应用最多的一篇经典论文。在这篇论文里，首先协同过滤的问题有一个低秩假设，作者认为由 User，Item 组成的稀疏矩阵是由两个低秩矩阵相乘得到预估评分。第二，通过观察数据，作者观察到 IMDB 对某些电影的打分是随着时间的加长，分数不断上升（对那些经典的电影）。根据这样线性的关系，设计「现在的时间」减去「首次被打分时间」作为偏置，拟合斜率就是一个好的模型。考虑到更复杂的情况下，打分随时间的变化并不是单纯的线性，作者进一步提出将线分成很多小段，每个小段做分段线性。
总结一下，通过机器学习优化的套路是什么？首先，观察数据；第二，找到规律；第三，根据规律做模型的假设；第四，对模型假设中的参数用数据进行拟合；第五，把拟合的结果用到线上，看看效果怎么样。这是模型这条路在工业界上优化的方法。
如何沿特征优化？

特征优化主要是工业界主导的，成果主要发表在 KDD、ADKDD 或者 WWW 上，这些模型相对简单粗暴。主要是 LR，比较简单，粗暴是说它的特征会特别多。就像刚才提到的，Google 使用了上千亿的特征，百度也使用了上千亿的特征，这些特征都是从最细的角度描述数据。
沿模型优化这条路的主要特点是什么？模型一定是分布式的，同时工程挑战是非常大的。上千亿的特征是什么概念？即使一个参数用一个 Float 存储，也需要上百 G 到上 T 的内存，是单机很难存储下来的。这还只是模型所占的内容空间，训练起来还有其他中间参数与变量、数据也还要占内存，所以这些算法一定是模型分布式的。针对这些难点，学术界中 KDD 和 WWW 等会议上都在研究如何高效并行，以及如何保证高效并行的时候快速收敛。ASP、BSP 等模型和同步、异步的算法，都是为了保证高效分布式的同时能快速收敛。
应为线性模型理论较为成熟，工业界对模型本身的优化相对没有那么多，其更主要的工作是针对具体的应用提取特征。为什么会有那么多特征？因为我们对所有观察到的微观变量都进行建模。以搜索广告为例，每个 User ID、每个 Query、每个广告都有特征。同时为了个性化，User+Query、User+广告 ID、Query+广告 ID，甚至 User+Query+广告 ID 都能产生特征。通过组合，特征会发生爆炸，原来可能上亿的特征会变成上千亿特征。
初听这样的思路会觉得有点奇怪，把用户历史上搜过关键词或者看过广告 ID 作为特征，如果这个用户从来没有搜索过这个关键词或者没有看过这个广告，那是不是就不能获取特征了呢？这个问题正是 LR+大规模特征这条路最常被攻击的一点，即如何进行模型泛化。在大规模离散特征机器学习系统里，解决泛化的方法是设计加入层次化特征，保证在细粒度特征无法命中的时候，层次化的上位更粗粒度特征可以生效。比方说如果一个用户是一个新用户的话，我们没有 UserID 特征，但是我们有更高层次的性别、地域、手机型号等特征生效，在预估中起作用。回到说之前的例子中，我们设计「Query+UserID」特征，到「Query」与「UserID」特征，再到更高级的性别属性「男/女」、使用的设备「安卓/ iOS」，可以组成一个完成的特征体系，无论缺失什么都可以用更高级的特征帮助预估进行弥补。

以之前提到的时序动态的协同过滤为例，我们看看如果走特征这条路，该怎么解决协同过滤的问题。首先我们不再做低秩假设，我们把所有的二阶项可以展平成组合特征。其次，我们会发现发现不是所有的数据都是呈线性的，特别有时候会产生一些突变，甚至都不能通过分段线性描述。还是在 Collaborative filtering with temporal dynamics 的论文中，由于作者也不知道什么原因造成了突变，他的方法是把不同维度的数据与时间进行组合，对时间维度的非线性进行建模。加入 Item 把时间分成比较细的桶，做分段线性的拟合。同样把 User 按时间进行分桶，保证对突变也能有比较好的拟合。

所以，当你不能给出比较好的数据假设时，不知道为什么产生突变时，可以更多的依赖数据，用潜在参数建模可能性，通过数据学到该学的知识。
宽度还是深度？大家都会比较好奇，沿着宽度走好还是沿着深度走好？并没有那个模型在所有情况下都更好，换一句话说机器学习没有免费的午餐（No Free-Lunch）：不存在万能模型。

No Free-Lunch Theory 是由 Wolpert 和 Macready 在 95 年提出的一个定理。他们证明对于任意算法或优化算法 A 与 B，如果在某一种损失函数上 A 好于 B，则一定存在另一个损失函数保证 B 好于 A。更直观的描述是，总能找出一个损失函数让任何算法都不比随机猜更好。

这告诉了我们什么？所有的机器学习都是一个偏置，这个偏置是代表你对于数据的假设，偏置本身不会有谁比谁更好这样的概念。如果使用更多的模型假设，就需要更少的数据，但如果模型本身越不符合真实分布，风险就越大。当然我们也可以使用更少的模型假设，用数据支持模型，但你需要更多的数据支持，更好的特征刻画，然后表示出分布。总结起来对于我们工业界来说，机器学习并没有免费的午餐，一定要做出对业务合适的选择。
宽与深的大战

追求更高的 VC 维有两条路：一个是走宽的、离散的那条路，即 Google AdWords 的道路；也可以走深的那条路，比如深度学习或者 YAHOO！News 那条路。这就是深与宽的大战，因为宽与深在工业界都有非常成功的应用案例，坚信宽与深的人很长一段时间是并不互相理解的，各自忠实的信徒和粉丝们都会去拥护自己坚信的算法，质疑另一条路走不通。坚信深度学习、复杂模型的人认为，宽的道路模型太简单了，20 年就把所有的理论研究透彻，没有什么更多的创新，这样的技术不可能在复杂问题上得到好的结果。坚信宽的模型的人，攻击深度模型在某些问题上从来没有真正把所有的数据都用好，从来没有发挥出数据全部的价值，没有真正的做到特别细致的个性化。的确深度模型推理做得好，但个性化、记忆方面差很多。
非常有幸的是，我自己在宽和深两边都在工业界做过实际的探索与研究。吴恩达还没正式加盟来百度之前，曾到百度访问交流，当时我在凤巢，有机会与他探讨机器学习在工业界的一些进展与尝试。在那时我们就发现在工业界中，宽与深有很强融合趋势。Google 作为宽度模型的发起者，正在在广告上尝试使用深度模型，而我在百度也在已经做了同样的事，不谋而合，Google 和百度这些宽模型的拥护者正在向深的方向走。同时吴恩达分享他在 Facebook 交流的时候，发现 Facebook 走的是复杂模型宏观特征，虽然效果不错，但也非常急切的想要尝试怎样使用更宽的模型，对广告与推荐进行建模。
宽与深的模型并没有谁比谁好，这就是免费午餐定理：不同业务使用不同的模型，不同的模型有不同的特点。我们对比一下宽度模型与深度模型：宽度模型有比较准确的记忆能力，深度模型有比较强的推理能力；宽度模型可以说出你的历史，在什么情况下点过什么广告，深度模型会推理出下次你可能喜欢哪一类东西。宽度模型是依靠层次化特征进行泛化的，有很强的解释性，虽说特征很多，但是每一个预估、为什么有这样的预估、原因是什么，可以非常好的解释出来；深度模型是非常难以解释的，你很难知道为什么给出这样的预估。宽度模型对平台、对工程要求非常高，需要训练数据非常多、特征非常多；深度模型对训练数据、对整个模型要求相对较低一点，但现在也是越来越高的。还有一个非常关键的区别点，如果你是 CEO、CTO，你想建一个机器学习的系统与团队，这两条路有非常大的区别。宽度模型可以比较方便与统一的加入业务知识，所以优化宽度模型的人是懂机器学习并且偏业务的人员，把专业的知识加入建模，其中特征工程本身的创新是提升的关键；如果走深度模型，模型的创新是关键，提升模型更关键来自于做 Machine Learning 的人，他们从业务获得知识并且得到一些假设，然后把假设加入模型之中进行尝试。

宽度和深度的大战，就我看来各自都有各自的缺点，我们要各取所长做宽与深的结合。宽与深的结合已经逐渐成为一个研究热点，Google 在今年 4 月份发表的一篇论文，介绍他们的最新工作「Deep & Wide Model」。模型分为 Deep 与 Wide 两部分，好处是它既能对比较细的特征有记忆，同时也有推理的能力。我们认为将来的方向都应该朝这路走。
除此之外，近期还有不少工作在探索这个方向，张伟楠 2016 年 ECIR 发表论文论述如何通过底层输入加上因子分解机让一个稀疏矩阵的深度学习可解，随后在 ICDM 上发表论文进一步加入 Inner Product 和 Outer Product 希望更好的刻画特征之间的关系。第四范式最近也有一些新进展，今年 7 月我们发布了 DSN 算法，算法底层是上千亿大小的宽度网络，上层是一个全连接的网络。难点在于如何解决它的可计算性以及如何解决模型的分布式，如何保持模型的稀疏与避免过拟合。总的来说这方面还是非常前沿的、非常热门的研究领域。
如何上线：从监督学习到强化学习
不管是宽也好、深也好、又宽又深也好，有这么多厉害模型，是不是欢欢喜喜搞好模型、做好特征，线下评估 AUC 涨了，我们就赶快上线？不要高兴太早，线下做好的模型实际上是一个监督学习模型，并不能保证它线上效果好。

以搜索广告为例，上图中最左边表示的是原系统对广告进行排序产生的结果，线上系统展示 6 条广告，还有一些是没有被展示的广告。展示的广告中有被点击的广告（黄色）和没被点击的广告（蓝色）。我们使用展示过的广告研发下一代机器学习模型，如上图中间所示，优化之后发现被点击的广告线下预估得点击率更高，位置向上提升，没有被点击的广告位置向下变化。但是真正的应用到线上的时候（上如最右边所示），面对的侯选广告不止是它展示出来的广告，而是所有的广告。可能之前根本就没被原系统排上来的广告被排到了非常高的位置，这些广告可能很多根本就不会被点击。这样以来，展示过的广告虽然保持了原来的顺序，但是中间插入了很多不会被点击、原来没被排上的广告，占用广告展示位，使得系统 AUC 很差。
这里说一下我当年在百度搜索广告上线深度学习的的故事。那时百度凤巢还是在使用大规模离散 LR 系统，上千亿的个性化的特征让广告效果有长足的进步，刚获得百度最高奖。而这个时候，我是在这个 LR 系统的基础上，尝试使用深度学习的技术进一步提升效果。怎么让一个上千亿特征的宽度系统变身深度系统在但是还是一个没被研究过非常困难的问题，我们花了大半年的时间历经千辛万苦在线下获得了非常显著的指标提升，欢天喜地的想要上线，但刚一上线，我们就发现，线下模型训练的越好，线上获得的效果反而越差。这使我们当时非常沮丧，找了很久原因，定位到发现不是模型不对，也不是深度、宽度的问题，而是监督学习的问题——线上系统并不是问题封闭的监督学习系统，而是开放的不断变化的系统。这就好比你去学打《星际争霸》，不能通过顶级玩家的录像来学，因为学到套路并不一定能打败初级玩家，而必须以赛代练，自己上手，才可以把学到的知识真的用起来，面对变化的现实世界。
回过来看，如何上线其实是从监督学习到强化学习的问题。强化学习一般是闭环系统，系统里会不断的有外部反馈，这个反馈又是由系统产生的输出带来的结果。那如何更好的用系统输出产生的结果进行强化学习？强化学习面临的空间是一个未知空间，在 PPT 的广告的例子中，可以看到的空间是原系统产生出来的空间（只有黄、蓝色广告），但是线上面对的空间其实是黄、蓝加上绿这些广告构成的空间。怎么更好的探索黄、蓝、绿的空间，是强化学习要解决的问题。有很多工作在尝试解决这方面的问题，包括多臂老虎机、UCB 等等很多算法，最近这些强化学习技术也被用到了搜索广告与推荐系统。总结起来，一定不要开心的太早，线上系统越强数据越有偏，学习越有偏的数据取得的效果，越不能代表上线的效果。
拆解复杂目标到单一目标，逐个优化有这么多好的技术，怎么更好的服务业务？机器学习做的是单目标优化问题，并没有能做多目标优化的机器学习算法。虽然有研究在做尝试，但在工业界还处于研究的初步阶段。在真正出现多目标机器学习算法之前，我们要更多的解决单目标优化的问题。

比方说新闻推荐就是一个多目标复杂的问题，想要优化的指标极多——我们想优化留存、想优化时长、想优化点击率、想优化转发、想减少低俗、想优化时效性、想加速新用户冷启动等等，只优化某一个目标并不能让我们一劳永逸。那这里回想到以前有一个做推荐的朋友就因此特别的苦恼，因为每天面对这么多的要考虑的因素，每天都在自己跟自己左右互搏，非常的分裂。他在优化点击率时就很担心，是不是变低俗了？优化低俗的时候是不是降低了用户的参与？优化参与时又想阅读时长是不是会受到影响？但是，如果一心想一次优化所有的目标，那么没有一个目标最终能被优化。机器学习解决问题的套路是通过把目标分解，逐个进行优化。
举搜索广告的例子，搜索广告的收入可以拆解成：流量 * 有广告展示的流量比例 (asr) * 平均页面广告展示条数 (asn) * 点击率 (ctr) * 广告平均计费价格 (acp)。拆解成这么多目标后，优化点击率时就不用考虑其他的因素，点击率用模型优化，价格、条数用竞价机制优化，流量通过产品与渠道优化。把目标拆开后可以非常舒服的优化每一项，每一项都优化得非常极致，整个系统就能做到极致了。再举一个停留时长的例子。如果我们想优化阅读的整体停留时长，并不是去按照直观优化每个页面的停留时常，而是将停留时长分解成点击率 * 点击后页面停留时长，然后分开进行优化。
如果进行了合理的拆解，我们实际上可以有更多基础模型，利用这些基础模型，我们可以定义出针对业务目标的机制，比如说指数加权乘法或者逐级阈值门限机制等。利用设计好的机制，我们可以调整各个目标之间的关系，做出取舍，还可以定量的观察与获得指标间的兑换比例，比方说在模型不进行变化的前提下，多少点击率的降低能兑换出多少总时长的增加。应为每个指标都是独立的，我们只需要用 ABTest 就可以根据公司目标调整这些机制参数了。这样的方法相对于根据目标调整数据更能解释清楚，调整数据是我把目标的拆解直接加到数据中，认为什么目标重要就把那个目标对应的数据加倍、权重加倍。但困难在于加倍数据后模型需要重新训练，也很难说清楚处于连续变化状态中的目标，各个分指标是怎么互换的。
关注人最后分享一下我们在工业界应用中，关注人的一些经验。关注人其实是一件我之前很少想的事情。如果你专注做机器学习，你可能认为与你交流的人、用你的技术的人或多或少懂得机器学习。但如果我们的目标是让所有人都能用上人工智能、让工业界更多的产业用上人工智能，你面对的人关于机器学习的水平参差不齐，就是一个非常现实的问题。在这样的情况下，关注人在其中就是至关重要的事。

开头提到的机器学习成功必要条件的五点中，专家数量是机器学习成功的必要因素。困难之一是在更广阔的工业界，专家教授并没有那么多，企业内部需要优化的业务数量也远远大于专家数量。第二是非专业 AI 人员在无法理解（至少宏观上、直观上理解）模型原理之前，他们是不相信模型能够更好的优化他的业务的。比如你要把司机替换成自动驾驶，会发现人有非常非常多的顾虑，因为人不知道为什么机器会做出左右、前后、刹车的判断，也不知道背后的机器学习会在什么时候失效、什么时候能应用。这些问题在当前的技术前提下都是很难被直接定义、描述清楚的，那么这就会导致人工智能很难被推广到更大的领域中。

如果要让更多的人能使用上这样的技术，首先是要解决模型的可解释性。对应研究中的下一代技术叫 XAI（Explainable Artificial Intelligence），是一个更易理解的、更可解释的 AI 系统。XAI 是 DARPA 今年的 6 月份提出的项目，被美国认为是攸关国家安全高度的人工智能的技术。
模型的可解释非常有用，更好的可解释性、可理解性可以把人工智能算法或技术推广到更多公司、以及推广到公司其他部门，否则会碰到很多不同层面的问题。模型的可解释有很多研究方向，做图片分类时通过深度学习给出一个 Output，说图片是猫的概率是 0.93。这会令人疑惑，图片中的确是一只猫，但并不知道为什么机器认为它是一只猫。将来的学习过程可能是，图片放进来不仅会给出一个结果说它是猫，还会给出它是一只猫的原因——两个毛茸茸的耳朵、还有爪子、脚上还有很多毛、还有小肉垫，因此认为它是猫。这样能更好的理解模型能做什么、不能做什么，这是应用人工智能至关重要的点。
要解决可解释性的问题，我们可以有多个思路，第一个思路是对于重要的模型，我们针对性的设计解释机制。比方说考虑如何去解释一个大规模特征 LR 模型的问题，虽然 LR 模型天生是个解释性很好的模型，但是特征特别多的情况下，由于它是微观模型，并不容易看到模型整体。就像观察全国 14 亿人每个人的行为，我们可以了解很多事情的发生，但是这还是不够的的，我们需要从微观特征中得到宏观的统计和宏观的分析。这条思路其他重要的工作包括如何可视化以及解释深度学习的内部机制。第二个思路是我们也可以设计出一些全新的模型，这些模型最重要的设计目标就是在高可解释性的同时不丢失预测效果。最后一个思路是做模型的黑箱推理，不管是深度模型、宽度模型或者其他模型，通过黑盒的输入输出来窥探模型内部的运行机制。
除了模型可解释，在实际应用中，模型可控也是非常重要的一点。越重要的领域对模型可控的要求越强，因为不能出错。推荐和广告出错一次没什么问题，如果贷款判断失误或是无人驾驶判断失误，后果可能会关系到国计民生。为什么模型可控是一个难的问题呢？因为刚才说到模型要好 VC 维就一定要高、一定要有足够的自由度，但可控是要限制解空间的自由度，让模型满足很多规则与约束。这就相当于想要造一个超音速的飞行器，但同时要求能用绳子牵着像风筝一样被控制方向。这方面，我们也在进行探索，针对具体的问题，比方说定价，我们可以设计出一些既满足规则、VC 维又足够高的模型。
最后一点，模型的互动性、可干预性、可参与性。机器学习更多的是通过观历史预测未来，如果是历史上没有发生过的事情，还是需要通过专家更好的预测。一方面我们不能把人全部替掉，另一方面人在人工智能时代可以产生更重要的作用。怎样设计一个模型把专家的知识加进来，在数据不够充分的时候更相信专家，有了足够的积累就更相信数据和事实，是非常重要研究的话题。
Take-Home Message
最后，总结一下这次分享，有这么几个关键信息：
第一点，我们要设计一个开放的可扩展的机器学习系统。它一定需要是高 VC 维的系统，才能保证随着业务增长，效率与效果也不断提升。

第二点，没有免费的午餐，也没有万能的模型。

第三点，宽度模型和深度模型各有利弊，根据场景、根据团队选择最合适你的。

第四点，模型从线下走到线上其实是强化学习的过程，你（和你的老板）最好做好半年抗战的准备。这个时间不是指写算法、做工程的时间，而是做强化学习、不断的迭代积累数据，让模型越来越好的时间。这点非常重要，否则新的模型很难用到实际的工作中。无数死于襁褓的模型都是惨遭缺乏强化学习之痛。

第五点，关注业务，设定更专注的目标解决更宽泛的问题。不要妄想一个机器学习模型能解决所有问题，要解决所有的问题就设计更多的模型，用机制让这些模型共同工作。

第六点，关注产品和业务人员，因为他们会最终决定 AI 能使用的深度和宽度。
今天我的分享就到这里。谢谢大家！

[b]问答环节

听众：第四范式的 Deep Sparse Networks 适合解决什么问题？
陈雨强：解决既要求数据有很强的离散性或很强的个性化，同时又要求有很强的推理的问题。Deep Sparse Networks 能从更细的角度能把特征进行组合，挖掘出特征之间不同的关系，个性化的推荐、广告、排序，包括要做预估的场景都是 Deep Sparse Networks 适合的。

听众：第四范式的商业模式是什么，是给这些中小型企业提供人工智能服务，还是给大公司提供服务？大企业可能都有自己的团队，那第四范式是做一个平台性的工具，还是将来也做产品？要一直做送水人，还是跟 BAT 这种传统互联网去结合？

陈雨强：我觉得最关键一点是，BAT 解决的问题和各行各业要解决的 AI 问题并不一样。各行各业都有使用 AI 的需求，我们的商业模式是提供一个 AI 的平台，让客户有 AI 的能力、让客户自己使用人工智能。
我们最近开放的公有云上，面对的目标客户是有很高的人工智能质量诉求，但是现在并没有能力建立这样的团队的公司，诸如一些互联网公司，他们的发展目标也是关注在业务上的。另外一方面，我们会服务金融、保险、电信等领域的一些巨头，他们其实有非常强烈的使用 AI 的场景和诉求，但在技术上没有完全接轨最新的技术。通过平台的方式，我们让他们的人员用上最新的技术产生更好的价值。

能做的事情太多，并且 BAT 和其他科技公司没有一家完全覆盖这部分业务。大数据公司很多，真正让大数据产生价值的公司很少，目前看还是相对不饱和的市场。

听众：我好奇的一点是，广点通是一个机器系统吗？投放的时候通过选择年龄、性别这样的标签可以代替监督学习的部分吗？以及，为了提升投放效果，是应该把它当成黑盒子去反复测试吗？
陈雨强：首先，广点通是一个非常好的机器学习系统。第二，选择年龄、性别能不能代替监督学习，这是两个不同的概念。年龄、性别、地域是用户画像，选择的标签是可被验证的、与产品最息息相关的。比如针对女性用户的产品虽然男性用户点击率会非常高，可你根本不希望任何男性点进来。所以这部分是点击率模型不能解决的问题，一定要经过 Targeting 解决。

还有一类是用户画像是并不必需的。比如来定义他喜欢车还是喜欢金融，这是一个很宽泛的概念，每家公司定义都不同。比方说高端客户、低端客户这样的标签，游戏公司的高端客户是每天玩 20 个小时游戏的人，但金融公司的高端客户很可能不是每天玩 20 小时游戏的人，所以通用、含糊的标签一般没有特别大的意义。

第三，如何优化。我觉得 ABtest 是最好的方式，如果平台支持，可以通过出价、通过组合观察如何获得最佳的 ROI，是现有比较有效的方法。如果说怎么结合机器学习，可以把 ROI 与数据做一个结合，这样更清楚哪些标签或者哪些投放的关键词更有可能获得更高的 ROI。

听众：去年吴恩达写了一篇文章叫「每个企业都需要一个首席智能官」，第四范式不在任何一个企业里，但可能也起到一个智能官的作用。对于怎么把机器学习变成可解释的东西，能和我们分享讲一个具体的故事，或者跟企业打交道面临需要解释的困难吗？
陈雨强：首席智能官需要做的事情有很多，涉及到如何在公司发挥人工智能的价值、推进人工智能、让人工智能更好的被接受、对趋势的判断、对技术的理解以及平台的搭建，还包括技术的推广。

我们在某个比较大的国有股份制银行做好了一个模型，仅用一个月的时间就让某一个具体的业务提升了 60% 的收入，换算成钱一年是十几亿的收入。银行就非常急想上线，但是需要让我们解释我们的模型为什么能工作，为什么比他们之前的算法和模型好。我们模型其实是一个宽模型，有上亿的特征，特征是可以一个一个拿出来看的，但是并不能了解模型为什么起作用。我们设计了一个可解释模型，用树模型这个相对容易解释的方式，你和我们的宽模型，让客户了解我们模型的背后在做什么事情。同时业务人员看了我们的模型，也获得一些启发，帮他们找到了一些新的业务规律。这个模型最终一是被用来做可解释模型，第二是用来做他们审计的模型，应对银行的监管诉求。

听众：深度模型和宽度模型的选择是应该发生在项目开始之前，还是以结果为导向，这两个模型都会去做，最终实际效果哪个更好我选择哪个模型？
陈雨强：这个问题在于选择建设适合你的机器学习系统。比如说这个系统面对的是不断变化的业务，宽度模型是非常好的能结合业务知识和专家意见的机制。如果是一个技术为主、模型为主的团队，走深度这条路也是可以获得非常大的提升的。说到底不只是技术选型的问题，还是管理、架构的问题。选择什么样的路决定将来怎么搭建团队、怎么获得持续的提升，因为机器学习一定不是一次就能完成的，是不断提升的。

听众：在模型角度出发，什么情况下即使数据是非常充足的，我们也认为专家的意见更可靠？
陈雨强：如果数据比较充分，专家的意见又比较靠谱，它们两个是高度一致的。专家更大的作用还是在于宏观上，可以非常容易的加入宏观的外部信息。这些信息如果计入模型相对会有滞后性，这是没有办法克服的，专家的及时性会更加好。

听众：假设数据的情况非常理想，在模型方面您会做哪些努力保证这个模型的可控性是最强的？

陈雨强：模型可控性不是所有的方方面面都被控制住，可控是模型达到的业务目标。举用机器学习解决智能定价的问题为例，对信用卡分期产品进行定价，3 期、6 期、9 期、12 期有不同的手续费，一个合理的假设或者一个正常的要求可控的规则是，期数越高单期手续费应该越低。如果机器学习解决这个问题，不能保证期数越高手续费就一定越低。
所以具体方法是什么？先设计一个部分强可控的模型，控制它的单调性、一致性和参数范围；另一部分不需要可控的参数，让它自由的学习，通过这种方式来达到可控。
听众：过去人工智能研究专家系统，现在深度学习和专家系统是不是能够结合？
陈雨强：这方面研究还是挺活跃的，近期的马尔科夫逻辑网把逻辑和神经网络在一起，还有在贝叶斯方法最近也相对更热了一点。大家也意识到深度学习很难解释，所以通过逻辑、推理、概率这种方式能得到更可解释的模型。我们自己也在思考，怎样能更好的把专家的知识结合进来。过去其实分两块，一块就是说 KR（Knowledge Representation)，一种就是做推理，现在有了深度学习、有了各种学习方向，可能会有更多的发展。
[b]©本文为机器之心整理发布[/b]

人工智能赛博物理操作系统AI-CPS OS“人工智能赛博物理操作系统”（新一代技术+商业操作系统“AI-CPS OS”：云计算+大数据+物联网+区块链+人工智能）分支用来的今天，企业领导者必须了解如何将“技术”全面渗入整个公司、产品等“商业”场景中，利用AI-CPS OS形成数字化+智能化力量，实现行业的重新布局、企业的重新构建和自我的焕然新生。

AI-CPS OS的真正价值并不来自构成技术或功能，而是要以一种传递独特竞争优势的方式将自动化+信息化、智造+产品+服务和数据+分析一体化，这种整合方式能够释放新的业务和运营模式。如果不能实现跨功能的更大规模融合，没有颠覆现状的意愿，这些将不可能实现。

领导者无法依靠某种单一战略方法来应对多维度的数字化变革。面对新一代技术+商业操作系统AI-CPS OS颠覆性的数字化+智能化力量，领导者必须在行业、企业与个人这三个层面都保持领先地位：重新行业布局：你的世界观要怎样改变才算足够？你必须对行业典范进行怎样的反思？
重新构建企业：你的企业需要做出什么样的变化？你准备如何重新定义你的公司？
重新打造自己：你需要成为怎样的人？要重塑自己并在数字化+智能化时代保有领先地位，你必须如何去做？
AI-CPS OS是数字化智能化创新平台，设计思路是将大数据、物联网、区块链和人工智能等无缝整合在云端，可以帮助企业将创新成果融入自身业务体系，实现各个前沿技术在云端的优势协同。AI-CPS OS形成的数字化+智能化力量与行业、企业及个人三个层面的交叉，形成了领导力模式，使数字化融入到领导者所在企业与领导方式的核心位置：精细：这种力量能够使人在更加真实、细致的层面观察与感知现实世界和数字化世界正在发生的一切，进而理解和更加精细地进行产品个性化控制、微观业务场景事件和结果控制。
智能：模型随着时间（数据）的变化而变化，整个系统就具备了智能（自学习）的能力。
高效：企业需要建立实时或者准实时的数据采集传输、模型预测和响应决策能力，这样智能就从批量性、阶段性的行为变成一个可以实时触达的行为。
不确定性：数字化变更颠覆和改变了领导者曾经仰仗的思维方式、结构和实践经验，其结果就是形成了复合不确定性这种颠覆性力量。主要的不确定性蕴含于三个领域：技术、文化、制度。
边界模糊：数字世界与现实世界的不断融合成CPS不仅让人们所知行业的核心产品、经济学定理和可能性都产生了变化，还模糊了不同行业间的界限。这种效应正在向生态系统、企业、客户、产品快速蔓延。
AI-CPS OS形成的数字化+智能化力量通过三个方式激发经济增长：
创造虚拟劳动力，承担需要适应性和敏捷性的复杂任务，即“智能自动化”，以区别于传统的自动化解决方案；
对现有劳动力和实物资产进行有利的补充和提升，提高资本效率；
人工智能的普及，将推动多行业的相关创新，开辟崭新的经济增长空间。

给决策制定者和商业领袖的建议：
超越自动化，开启新创新模式：利用具有自主学习和自我控制能力的动态机器智能，为企业创造新商机；
迎接新一代信息技术，迎接人工智能：无缝整合人类智慧与机器智能，重新评估未来的知识和技能类型；
制定道德规范：切实为人工智能生态系统制定道德准则，并在智能机器的开发过程中确定更加明晰的标准和最佳实践；
重视再分配效应：对人工智能可能带来的冲击做好准备，制定战略帮助面临较高失业风险的人群；
开发数字化+智能化企业所需新能力：员工团队需要积极掌握判断、沟通及想象力和创造力等人类所特有的重要能力。对于中国企业来说，创造兼具包容性和多样性的文化也非常重要。

子曰：“君子和而不同，小人同而不和。” 《论语·子路》云计算、大数据、物联网、区块链和人工智能，像君子一般融合，一起体现科技就是生产力。
如果说上一次哥伦布地理大发现，拓展的是人类的物理空间。那么这一次地理大发现，拓展的就是人们的数字空间。在数学空间，建立新的商业文明，从而发现新的创富模式，为人类社会带来新的财富空间。云计算，大数据、物联网和区块链，是进入这个数字空间的船，而人工智能就是那船上的帆，哥伦布之帆！
新一代技术+商业的人工智能赛博物理操作系统AI-CPS OS作为新一轮产业变革的核心驱动力，将进一步释放历次科技革命和产业变革积蓄的巨大能量，并创造新的强大引擎。重构生产、分配、交换、消费等经济活动各环节，形成从宏观到微观各领域的智能化新需求，催生新技术、新产品、新产业、新业态、新模式。引发经济结构重大变革，深刻改变人类生产生活方式和思维模式，实现社会生产力的整体跃升。
[b]
[b]产业智能官 AI-CPS用“人工智能赛博物理操作系统”（新一代技术+商业操作系统“AI-CPS OS”：云计算+大数据+物联网+区块链+人工智能），在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的认知计算和机器智能；实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链。

长按上方二维码关注微信公众号： AI-CPS，更多信息回复：
新技术：“云计算”、“大数据”、“物联网”、“区块链”、“人工智能”；新产业：“智能制造”、“智能农业”、“智能金融”、“智能零售”、“智能城市”[b]、“智能驾驶”[/b]；新模式：“财富空间”、“数据科学家”、“赛博物理”、“供应链金融”。官方网站：AI-CPS.NET

本文系“产业智能官”（公众号ID：AI-CPS）收集整理，转载请注明出处！
[b]版权声明：由产业智能官（公众号ID：AI-CPS）推荐的文章，除非确实无法确认，我们都会注明作者和来源。部分文章推送时未能与原作者取得联系。若涉及版权问题，烦请原作者联系我们，与您共同协商解决。联系、投稿邮箱：erp_vip@hotmail.com

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航