您的位置：首页 > 其它

【数据科学家】每个数据科学家都应该学习4个必备技能

2018-01-16 00:00 330 查看

摘要：作为一个数据科学家你必须要掌握的四个必备技能，值得每个想要成为数据科学家和已经成为数据科学家的人去学习。
这篇文章对应之前发表过的一篇关于如何成长为一名具备其他技能的高级数据科学家的文章。希望通过高级数据科学家在业务经理和技术数据科学家之间搭起一座沟通的桥梁，以保证随着新技术的不断发展，技术与业务之间的沟通顺畅。

如图，IT知识和商业知识有着知识鸿沟随着科学技术的不断发展，数据科学家们也在不断的成长，在他们成长过程中他们需要更多的关注设计决策和与管理层的沟通。于是，有经验的数据科学家可以帮助年轻的数据科学家，可以利用自己的经验帮助决定最合适的设计决策，能够更好地为自己和公司带来好处。而作为数据科学家在成长的过程中，需要掌握以下4个技能。

1.能够简化复杂的东西

数据科学家倾向于使用每个问题和每个解决方案中所知的每种技术和算法。反过来，这又会造成难以维护的复杂系统。数据科学确实需要复杂和抽象的建模以及大量复杂的技术（从Hadoop到Tensorflow）。由于这个领域周围的复杂性，这使得开发系统和算法也很复杂。但是，像大多数其他涉及工程设计的领域，综合考虑，减少其自身的复杂性往往效果更好。

埃尔温·薛定谔（ErwinSchrÖdinger）和阿尔伯特·爱因斯坦（Albert Einstein）可以帮助我们理解数学和物理学领域的复杂性。工程师的角色是简化任务。如果你曾经建造或看过Rube Goldberg机器，你将会理解什么是过度设计一项简单任务。制造更简单的系统意味着系统将随着时间的推移变得更容易维护，并为未来的数据科学家提供需要添加和移除模块的空间。简单的算法和系统也允许更容易的加法和减法。因此，随着技术的变化和更新需要或模块需要被取出。一个可怜的未来的数据科学家不会用你的代码来玩Jenga游戏（原因之一就是怕技术债务）。

2.指导如何在没有主键的情况下将数据网格化

厉害的数据专家应该提供的重要价值之一是将可能不具有主要或明显联系的数据集捆绑在一起。如果数据科学家有能力在这些数据中查找统计模式，那么他将有能力帮助决策者做出明智的选择。但是，这种能力是非常难得的。与数据打过交道的人知道它们并不总是很好地集成在一个数据库中。财务数据通常与IT服务管理数据分开，外部数据源可能不具有相同的聚合级别。而有时候数据所存在的价值需要与其他部门和系统的数据一起才能显现，因此这成为了一个难题。

数据网格划分需要以相同的粒度级别构建块，可以用图中很多小拼图拼成了大拼图来对比想象。例如，如果你提供医疗索赔，信用卡和社区犯罪率，并想弄清楚这些社会经济因素如何影响病人？一些数据集可能按人员级别，而另一些数据集可能在街道或城市级别，没有明确的方法来连接数据集。进行的最好的方式是什么？这成为一个必须记录和考虑的设计问题。每种情况都有所不同，因为有多种方式来进行数据网格划分，这可能是基于地区、特点、消费习惯等。在这里经验就显得十分重要了，因为他们已经尝试了数百种不起作用的方法，一位经验丰富的数据科学家会拥有判断如何加入数据的直觉。

3.有选择优先项目的能力

作为一名数据科学家，你必须知道如何解释可能不会实现的项目的投资回报率。这是关于能够拥有—清楚地说明价值以及优先考虑长期目标与短期目标的沟通能力。团队中总是有很多的项目和项目要求，使他们应接不暇。有经验的团队需要有成员带头帮助他们的经理人，去决定哪些项目是值得的。在这种情况下，需要一个决策矩阵来帮助简化流程。项目的经典决策矩阵之一是一个2*2的矩阵，即重要性和紧迫性。这个矩阵可以在大多数商业课程中找到，它非常简单。这就是为什么它是伟大的！

如果一切都是优先事项，那么什么都不是许多其他公司都有这个问题，这就需要数据科学团队中经验丰富的成员清楚地说明现在应该完成哪些项目的原因。

4.能够开发健全的和最优的系统

制定在受控环境下运行的算法或模型是一回事。把一个强大的模型整合到一个现场处理大量数据的系统中是另外一回事。根据公司的不同，有时数据科学家只需要开发算法本身，然后开发人员或机器学习工程师将负责投入生产。但是，对于小型公司或团队可能会让数据科学小组将代码投入生产。这意味着该算法需要能够以合理的速度管理数据流量。因此，良好的系统设计和优化是必要的。

数据科学是一个复杂的领域，需要了解数据，统计数据，编程和主题。为了发展，数据科学家需要能够将这些复杂的东西简化并提炼成算法。他们需要能够更多地关注设计决策。这有助于最大限度地发挥他们的知识和经验。本文由阿里云云栖社区组织翻译。文章原标题《4 Must Have Skills Every Data Scientist Should Learn》作者：SeattleDataGuy译者：乌拉乌拉，审校。

想成为真正的数据科学家，除了资历你还需要这4个技能

杨晓凡 AI科技评
AI 科技评论按：「数据科学家」可谓是从「大数据」和「机器学习」双双开始普及之后催生的热门职位之一了，许多接触或者学习了机器学习的学生和程序员都期待自己能够成为数据科学家。不过，从「会洗数据写代码」到「优秀的数据科学家」之间到底有多少距离，很多人都说不清。对于不同的企业，数据科学家的作用会有各种各样的不同，甚至同一个企业中不同团队的数据科学家都会有不小的区别。就算是想要为自己的数据科学家构建一个标准成长路径的企业都会觉得非常苦恼。如果没有清晰的成长路径，这些充满天分的计算机魔法师们就会有遇到瓶颈的风险。他们可能很擅长做出深刻的发现，但是他们可能永远都无法真正地成长、永远都无法带来企业所期待的真正的投资回报。带着这个问题，the Seattle Data Guy 采访了西雅图周边的许多顶级科技企业的管理人员，尝试了解他们对企业里的高级数据科学家有哪些期待、希望数据科学家有哪些产出。这些他们了解到的信息相信不仅可以帮助想要成长的数据科学家，也可以帮助想要激励数据科学家成长的企业管理者们。AI 科技评论把他们的发现介绍如下。根据访谈得到的结果，the Seattle Data Guy 发现科学家的成长和编程、算法设计都没什么关系（这都是初级数据科学家的基本功了）。当问及这些管理者希望从更资深的数据科学家身上看到什么时，得到的回答是「自我驱动的员工，他们能简明地沟通、能为自己考虑、对公司业务有深入的了解，而且能管理自己的上级」。为了让数据科学家成长，他们迎接的挑战也需要超出工作的技术部分之外。数据科学家是有机会改变公司决定的一群人，他们的肩膀上担负着责任；这也意味着他们应当对自己的工作内容有主人翁感。他们要能够质疑自己的数据来源、对信息的洞察要简明扼要、了解公司的业务并且能够帮助自己的上级领导。

不要仅仅质疑自己的结论，还要质疑自己的数据

一个资深的数据科学家不会在拿到数据后就直接信任它的。他们会反复查验数据，寻找其中的偏移、丢失的数据、重复数据等等。数据总会有自己的缺陷。如果你也曾在数据上花过成百上千小时，那你一定知道这是什么意思。当你在数据中浏览，或者把数据绘成图表的时候，你常常会发现一些奇怪的模式，你会不禁停下来琢磨：「为什么 x 和 z 看起来这么像？」年轻的数据科学家往往会花太多精力在完成项目本身上，他们还没有学会如何停下来仔细分析这些奇怪的模式。这些模式的出现有可能是因为系统的默认输出就是 -1 或 1 这样的特定值，也有可能是让爬虫收集电商网站上的顾客购买数据时出现了偏差，以及其它一千多种可能的原因让数据产生了误导性。出现了这些模式不代表数据就一定是错误的、没法使用的。而且即便收集到的数据准确的时候，对数据的操作也还总会带来一些瑕疵。当设计报告、算法和量测指标时，这些因素都应当被考虑到其中。一个有经验的数据科学家不仅仅会尝试寻找数据中的缺陷，他甚至会期待着这些缺陷出现。「可信数据源」这个词汇会经常在数据团队中出现。它所指的就是多个团队都能认可正确性的原始数据源。作者自己刚开始做数据科学家的时候就非常天真，在最早的一个项目中，他了解到了他们团队把一个数据源标识为了可信数据源。然后在接下来的几个月里他都在为这个「可信数据源」开发分析和应用工具，以便超过 200 位管理者和总监可以访问这个数据源。不出意外地，没过多久就发现别的一些量测指标出现了一致性问题。这时候作者才意识到，他所用的这个数据源其实是真正的可信数据源经过多次 ETL（提取、转换、加载）之后的数据源。在和西雅图的多位科技企业管理者交流过以后，作者发现这事其实很常见。年轻的分析师、数据科学家、经验不足的员工都过于信任他们的数据源。年轻的、经验不足的员工一般来说都急于把工作完成。这就不可避免地让他们更少地理解数据真正的状况。他们并不会追究「为什么」，而是花更多时间确保产品的「功能性」。那么他们就会忽略掉数据中的缺陷。一个数据科学家想要，就要停止「做出一个达到要求的算法或者系统然后署上大名结束」的做法，他还需要负起责任，理解数据、弄清数据中的缺陷。这样才能在和上级沟通的时候针对自己的各种假设进行完整的沟通。作为数据科学家，如果出现了不好的输出的时候怪罪数据有问题，那他是没法成长的。

能简洁地表达自己的发现的价值

一个数据科学家如果想要成长，他对自己的要求就不能只是做一个合格的程序员 & 统计员。他必须学会如何成为一个沟通者，必须掌握简洁地表达自己的发现的能力，以及能够告诉自己的上级应该如何处理这些信息。给自己的总监以及其它管理层成员展示研究过程中收集到的所有的的图表、所有的数据和所有的技术信息以表明自己工作得非常努力，这听上去还不赖。尤其是，数据科学领域内有时候要花几个月的时间才能在某一个问题上做出有价值的进展（背后自然是有原因的）。不过，在一切结束之后，总监们并不需要过多的信息。
知道重点的信息，以及知道基于这些重点信息应该做什么，对于总监们来说就足够了。你的总监可能还有另外 8 支团队要管，那你跟他讲很多 ROC、讲很多为什么选了这个算法而没有选另一个，就不是很有帮助。大多数的时候你都会发现总监其实只需要 2 到 3 个简单的要点汇报。有时候甚至简单的「是」、「不是」都比「可能…… 在某些条件下…… 这个那个…… 第一种可能性下有这个危险，第二种可能性下有另一些危险」更有用。一个有经验的数据科学家会知道如何仔细打磨自己的洞见、如何浓缩执行步骤，以此来给自己的上级提供真正的帮助。如果你的上级想要知道更多的信息，他会开口问的（并且一个好的数据科学家总是答得上来的）。说到底，管理层们不喜欢陷在一堆不能帮助他们做出更好的决定的多余信息里面。

了解自己公司的业务

当数据科学家换工作的时候，没能在上班第一天就完全了解新公司的所有情况是完全正常的。除了数据源、代码库以及其它一些公司特有的系统之外，还有很多别的东西需要学习。他们需要了解接下来要打交道的每天的运营数据，也需要知道公司现在面临的问题。不过，一个有经验的数据科学家还需要能够快速理解公司的业务。千万不要全神贯注磨炼自己的技术能力，然后对公司业务只是一知半解。要学习如何和别的团队协同工作、参与到公司的项目中去、给自己一些听取别人意见的机会。数据科学家完全有可能要连续参与各种不同类型的、面对各种不同问题的项目，他们需要能够快速适应。刚入行的开发者往往会关注磨练自己的技术能力多于关心自己公司的业务。和很多其它行业一样，重复性的繁重工作都是在较低的级别上进行的（在这里就比如敲代码、数据清洗等等），这就让执行这些任务的人没有时间深入琢磨他们自己应该如何帮助改善公司的业务。然而，在数据科学家工作的头几年中，了解公司的业务应当是一个重要成长阶段，这能确保他们建立起多种多样的技术能力。有经验一些的数据科学家就需要多花点注意力考虑自己的项目的「为什么」。如果一个管理者不挑战自己的有经验的数据科学家团队、不让他们成长并学习公司的业务，那么不能很好成长的责任管理者也要承担起来。每年或者每隔几个月，管理者们都要让经验的数据科学家们面对新的挑战，确保他们在成长。不然公司的业务就明显错过了最大的投入产出比。

管理自己的上级

在任何行业中管理自己的上级都不是一件容易的事情。在科技行业中，根据上级主管的技术背景不同，这件事有时候会显得非常困难。关注业务的管理者可能没有什么经验带领技术团队，对于有经验的数据科学家来说在这种时候有能力管理自己的上级就至关重要。善于管理上级的数据科学家能理解别人。管理上级需要数据科学家（或者公司中任何一个在乎这件事的人）花一些时间理解上级的需求。值得考虑的不仅仅是公司的需求。你的上司对你有什么需求、对自己又有什么需求，一旦你了解了这些，你就明白了是什么在驱动他们。这样，在你的上司开口讲他的需求之前你就知道应该期待什么。这能帮助你们建立信任，也能让你的管理者和总监们给你分配更多的资源和注意力。这个世界上不是只有你一个人需要成长，你的上级也想要成长的！作为有经验的（不管哪个级别的）员工，你很清楚帮助别人成长、帮助别人达成目标的时候你自己也有收获。

总结

企业对数据科学家的期待不仅仅是创造算法以及管理大量的数据而已。有经验的数据科学家的价值也不仅仅体现在他们的技术能力上，还体现在他们磨练出的软技能上。数据科学家找到的信息和算法要帮助推动高层管理者做出决策。总监和副总裁们可能管理着价值上千万的团队、资源、设备、项目以及公司里其它各种各样的东西，而数据科学家的所有输出都应当是他们可以理解的。这就意味着，为了让数据科学家成长、为了给帮助公司发展业务，他们也就需要知道哪些东西是对公司业务有价值的。via the Seattle Data Guy，AI 科技评论编译。

人工智能赛博物理操作系统AI-CPS OS“人工智能赛博物理操作系统”（新一代技术+商业操作系统“AI-CPS OS”：云计算+大数据+物联网+区块链+人工智能）分支用来的今天，企业领导者必须了解如何将“技术”全面渗入整个公司、产品等“商业”场景中，利用AI-CPS OS形成数字化+智能化力量，实现行业的重新布局、企业的重新构建和自我的焕然新生。

AI-CPS OS的真正价值并不来自构成技术或功能，而是要以一种传递独特竞争优势的方式将自动化+信息化、智造+产品+服务和数据+分析一体化，这种整合方式能够释放新的业务和运营模式。如果不能实现跨功能的更大规模融合，没有颠覆现状的意愿，这些将不可能实现。

领导者无法依靠某种单一战略方法来应对多维度的数字化变革。面对新一代技术+商业操作系统AI-CPS OS颠覆性的数字化+智能化力量，领导者必须在行业、企业与个人这三个层面都保持领先地位：
重新行业布局：你的世界观要怎样改变才算足够？你必须对行业典范进行怎样的反思？
重新构建企业：你的企业需要做出什么样的变化？你准备如何重新定义你的公司？
重新打造自己：你需要成为怎样的人？要重塑自己并在数字化+智能化时代保有领先地位，你必须如何去做？
AI-CPS OS是数字化智能化创新平台，设计思路是将大数据、物联网、区块链和人工智能等无缝整合在云端，可以帮助企业将创新成果融入自身业务体系，实现各个前沿技术在云端的优势协同。AI-CPS OS形成的数字化+智能化力量与行业、企业及个人三个层面的交叉，形成了领导力模式，使数字化融入到领导者所在企业与领导方式的核心位置：精细：这种力量能够使人在更加真实、细致的层面观察与感知现实世界和数字化世界正在发生的一切，进而理解和更加精细地进行产品个性化控制、微观业务场景事件和结果控制。
智能：模型随着时间（数据）的变化而变化，整个系统就具备了智能（自学习）的能力。
高效：企业需要建立实时或者准实时的数据采集传输、模型预测和响应决策能力，这样智能就从批量性、阶段性的行为变成一个可以实时触达的行为。
不确定性：数字化变更颠覆和改变了领导者曾经仰仗的思维方式、结构和实践经验，其结果就是形成了复合不确定性这种颠覆性力量。主要的不确定性蕴含于三个领域：技术、文化、制度。
边界模糊：数字世界与现实世界的不断融合成CPS不仅让人们所知行业的核心产品、经济学定理和可能性都产生了变化，还模糊了不同行业间的界限。这种效应正在向生态系统、企业、客户、产品快速蔓延。
AI-CPS OS形成的数字化+智能化力量通过三个方式激发经济增长：
创造虚拟劳动力，承担需要适应性和敏捷性的复杂任务，即“智能自动化”，以区别于传统的自动化解决方案；
对现有劳动力和实物资产进行有利的补充和提升，提高资本效率；
人工智能的普及，将推动多行业的相关创新，开辟崭新的经济增长空间。

给决策制定者和商业领袖的建议：
超越自动化，开启新创新模式：利用具有自主学习和自我控制能力的动态机器智能，为企业创造新商机；
迎接新一代信息技术，迎接人工智能：无缝整合人类智慧与机器智能，重新评估未来的知识和技能类型；
制定道德规范：切实为人工智能生态系统制定道德准则，并在智能机器的开发过程中确定更加明晰的标准和最佳实践；
重视再分配效应：对人工智能可能带来的冲击做好准备，制定战略帮助面临较高失业风险的人群；
开发数字化+智能化企业所需新能力：员工团队需要积极掌握判断、沟通及想象力和创造力等人类所特有的重要能力。对于中国企业来说，创造兼具包容性和多样性的文化也非常重要。

子曰：“君子和而不同，小人同而不和。” 《论语·子路》云计算、大数据、物联网、区块链和人工智能，像君子一般融合，一起体现科技就是生产力。
如果说上一次哥伦布地理大发现，拓展的是人类的物理空间。那么这一次地理大发现，拓展的就是人们的数字空间。在数学空间，建立新的商业文明，从而发现新的创富模式，为人类社会带来新的财富空间。云计算，大数据、物联网和区块链，是进入这个数字空间的船，而人工智能就是那船上的帆，哥伦布之帆！
新一代技术+商业的人工智能赛博物理操作系统AI-CPS OS作为新一轮产业变革的核心驱动力，将进一步释放历次科技革命和产业变革积蓄的巨大能量，并创造新的强大引擎。重构生产、分配、交换、消费等经济活动各环节，形成从宏观到微观各领域的智能化新需求，催生新技术、新产品、新产业、新业态、新模式。引发经济结构重大变革，深刻改变人类生产生活方式和思维模式，实现社会生产力的整体跃升。

产业智能官 AI-CPS用“人工智能赛博物理操作系统”（新一代技术+商业操作系统“AI-CPS OS”：云计算+大数据+物联网+区块链+人工智能），在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的认知计算和机器智能；实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链。

长按上方二维码关注微信公众号： AI-CPS，更多信息回复：
新技术：“云计算”、“大数据”、“物联网”、“区块链”、“人工智能”；新产业：“智能制造”、“智能农业”、“智能金融”、“智能零售”、“智能城市”[b]、“智能驾驶”[/b]；新模式：“财富空间”、“数据科学家”、“赛博物理”、“供应链金融”。官方网站：AI-CPS.NET

本文系“产业智能官”（公众号ID：AI-CPS）收集整理，转载请注明出处！

版权声明：由产业智能官（公众号ID：AI-CPS）推荐的文章，除非确实无法确认，我们都会注明作者和来源。部分文章推送时未能与原作者取得联系。若涉及版权问题，烦请原作者联系我们，与您共同协商解决。联系、投稿邮箱：erp_vip@hotmail.com

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航