您的位置:首页 > 其它

【数据科学】迄今最全面的数据科学应用总结:16个分析学科及落地应用

2017-11-29 00:00 495 查看


数据科学,数据挖掘,机器学习,统计学,运筹学等方面有什么不同?

在这里,我比较几个重叠的分析学科,来解释差异和共同点。除了历史原因,有时候除了别的东西外别无其他。有时候,差异是真实而微妙的。我还提供了典型的职位,分析类型以及传统上与每个学科相关的行业。带下划线的域是主要的子域。

首先,我们从描述数据科学这个新的学科开始。

职位包括数据科学家,首席科学家,高级分析师,分析总监等等。它涵盖了所有行业和领域,尤其是数字分析,搜索技术,市场营销,欺诈检测,天文学,能源,健康护理,社交网络,金融,法医学,安全(NSA),移动,电信,天气预报和欺诈检测。

项目包括分类学创建(文本挖掘,大数据),适用于大数据集的聚类,推荐引擎,模拟,统计评分引擎的规则系统,根本原因分析,自动出价,取证,外星行星检测以及恐怖分子的早期发现活动或流行病。数据科学的一个重要组成部分是自动化,机器到机器的通信,以及在生产模式下不间断运行的算法(有时是实时的),例如检测欺诈,预测天气或预测房价为每个家庭(Zillow)。

数据科学项目的一个例子是创建增长最快的数据科学Twitter个人资料,用于计算营销。它利用大数据,是病毒式营销/增长黑客策略的一部分,还包括自动化的高质量,相关联合内容生成(简而言之,数字出版3.0版)。

与大多数其他分析行业不同,数据科学家被认为具有良好的商业头脑和领域专业知识 - 他们倾向于成为企业家的原因之一。数据科学家有许多类型,因为数据科学是一门宽泛的学科。许多高级数据科学家掌握着他们的艺术/工艺,拥有全部的技能和知识;他们确实是招聘者找不到的独角兽。招聘经理和不知情的管理人员喜欢狭隘的技术技能,而不是深厚的,广泛的和专业化的业务领域的专业知识 - 当前教育系统的副产品,有利于学科孤岛,而真正的数据科学是孤立的破坏者。独角兽数据科学家(名词不当,因为他们并不稀奇 - 有些着名的风险投资家)通常担任顾问或高管。初级数据科学家往往更专注于数据科学的一个方面,拥有更多的热门技术(Hadoop,Pig,Cassandra),如果他们接受了适当的培训和/或有公司的工作经验,
Facebook,谷歌,eBay,苹果,英特尔,Twitter,亚马逊,Zillow等。潜在候选人的数据科学项目可以在这里找到。

数据科学与重叠

计算机科学:计算复杂性,互联网拓扑和图论,Hadoop等分布式架构,数据管理(数据流和内存分析的优化),数据压缩,计算机编程(Python,Perl,R)以及处理传感器和流数据(设计自动驾驶的汽车)

统计学:包括多变量检验,交叉验证,随机过程,抽样,无模型置信区间的实验设计,但不包括对大数据诅咒的假设的p值或模糊测试

机器学习和数据挖掘:数据科学确实完全包含了这两个领域。

运筹学:数据科学包含大部分运筹学,以及旨在基于分析数据优化决策的任何技术。

商业智能:数据科学是设计/创建/识别重要指标和KPI,创建数据库模式(不管是否使用NoSQL),仪表板设计和可视化以及数据驱动策略以优化决策和投资回报率的每个BI方面。

与其他分析标准进行比较

机器学习:非常流行的计算机科学学科,数据密集型,部分数据科学与数据挖掘密切相关。机器学习是关于设计算法(如数据挖掘)的重点,但重点是生产模式的原型算法,设计自动更新自动系统(招标算法,广告定位算法),不断训练/重新训练/更新训练集/验证并改进或发现新的规则(欺诈检测)。 Python现在是ML开发的流行语言。核心算法包括聚类和监督分类,规则系统和评分技术。接近人工智能的子域(参见下面的条目)是深度学习。

数据挖掘:这个学科是关于设计算法来从相当大的和潜在的非结构化数据(文本挖掘)中提取洞察力,有时被称为金块发现,例如在查看5000万行数据后挖掘一个巨大的僵尸网络。技术包括模式识别,选择,聚类,监督分类,并包含一些统计技术(尽管没有使用大多数统计方法的p值或置信区间)。相反,重点是强大的,数据驱动的,可扩展的技术,对发现原因或可解释性没有太大的兴趣。因此数据挖掘与统计数据有一定的交集,是数据科学的一个子集。数据挖掘应用于计算机工程,而不是数学科学。数据挖掘者使用开源和Rapid Miner等软件。

预测建模:本身不是一门学科。预测建模项目遍布所有学科的所有行业。预测建模应用程序旨在基于过去的数据预测未来,通常但不总是基于统计建模。预测往往伴随着置信区间。预测建模的根源在统计学上。

统计:目前,统计主要是关于调查(通常用SPSS软件进行),理论学术研究,银行和保险分析(营销组合优化,交叉销售,欺诈检测,通常与SAS和R),统计编程,社会科学,全球变暖研究(和空间天气模型),经济研究,临床试验(制药业),医学统计学,流行病学,生物统计学和政府统计学。聘请统计人员的机构包括人口普查局,IRS,CDC,EPA,BLS,SEC和EPA(环境/空间统计)。需要安全检查的工作薪酬较高,而且相对安全,但制药行业的高薪工作(统计人员的金雁)受到外包,公司合并和承受医疗保健压力等诸多因素的威胁。由于保守的风险不利的医药行业的巨大影响,统计已经成为一个不适应新数据,不创新,数据科学松懈,工业统计,运筹学,数据挖掘,机器学习等领域的狭窄领域,在那里使用相同的聚类,交叉验证和统计训练技术,尽管以更自动的方式和更大的数据。
10年前被称为统计学家的许多专业人士,在过去几年里,他们的职位已经变成数据科学家或分析师。现代子领域包括统计计算,统计学习(更接近机器学习),计算统计(接近数据科学),数据驱动(无模型)推理,体育统计和贝叶斯统计(MCMC,贝叶斯网络和分层贝叶斯模型正在流行,现代技术)。其他新技术包括支持向量机,结构方程模型,预测选举结果和集成模型。

工业统计:非统计人员(具有良好统计培训的工程师)经常进行统计,从事工程项目,如产量优化或负载平衡(系统分析员)。他们使用非常实用的统计数据,他们的框架比传统统计更接近六西格玛,质量控制和运营研究。也发现在石油和制造业。所使用的技术包括时间序列,方差分析,实验设计,生存分析,信号处理(滤波,去噪,去卷积),空间模型,模拟,马尔可夫链,风险和可靠性模型。

数学优化:用单纯形算法,傅立叶变换(信号处理),微分方程和Matlab等软件解决业务优化问题。这些应用数学家在IBM,研究实验室,NSA(密码学)和金融行业(有时招聘物理或工程专业的毕业生)等大公司都有发现。这些专业人员有时会用统一的技术解决与统计学家完全相同的问题,尽管他们使用不同的名称。数学家们使用最小二乘法进行插值或外推;统计学家使用线性回归进行预测和模型拟合,但是两个概念都是相同的,并且依赖于完全相同的数学机器:只是描述相同事物的两个名字。然而,数学优化比运算研究更接近统计学,雇佣数学家而不是其他实践者(数据科学家)的选择往往是由历史原因决定的,尤其是对于像NSA或IBM这样的组织。

精算科学:只是使用生存模型的保险(汽车,健康等)统计的一个子集:预测何时死亡,根据您的健康状况(吸烟者,性别,既往疾病)确定您的医疗保险费用,以确定您的保险费。还预测极端的洪水和天气事件,以确定保费。后来的这些模式出乎意料地是错误的(最近),并导致了比预期更大的支出。由于某些原因,这是一个非常活跃,分散的统计人员社区,不再称自己的统计学家(职称是精算师)。他们看到他们的平均薪酬随着时间的推移而增长很好:对专业的限制和管理就像律师一样,除了保护主义以外,没有任何其他的原因可以提高薪水,减少合格申请人的数量。精算科学的确是数据科学(一个子领域)。

HPC:高性能计算本身并不是一门学科,但应该是数据科学家,大数据实践者,计算机科学家和数学家关心的问题,因为它可以重新定义这些领域的计算范式。如果量子计算成功,将彻底改变算法设计和实现的方式。 HPC不应该与Hadoop和Map-Reduce混淆:HPC与硬件相关,Hadoop与软件相关(尽管严重依赖Internet带宽和服务器配置以及邻近性)。

行动调查:缩写为OR。他们早在20年前就已经从统计中分离出来了,但是他们就像孪生兄弟,他们各自的组织(INFORMS和ASA)一起合作。 OR是关于决策科学和优化传统业务项目:库存管理,供应链,定价。他们大量使用马尔可夫链模型,蒙特卡洛模拟,排队和图论,以及诸如AIMS,Matlab或Informatica等软件。传统的大公司使用OR,新的和小的(初创公司)使用数据科学来处理定价,库存管理或供应链问题。许多运营研究分析师正在成为数据科学家,因为与OR相比,在数据科学方面有更多的创新和增长前景。另外,OR问题可以通过数据科学来解决。或者与六西格玛重叠(见下文),也解决了经济计量问题,在军队和国防部门有许多从业人员/应用。汽车交通优化是OR问题的一个现代例子,通过模拟,通勤者调查,传感器数据和统计建模来解决。

六个西格玛:摩托罗拉和通用电气几十年前就大力推广,这更多的是一种思维方式(一种商业哲学,如果不是一种崇拜),而不是一种纪律。用于质量控制和优化工程流程(参见本文中的工业统计的条目),由大型传统公司进行。他们有一个拥有27万名会员的LinkedIn小组,是包括我们数据科学小组在内的任何其他解析LinkedIn小组的两倍。他们的座右铭是简单的:把你的努力集中在20%的时间,产生80%的价值。应用简单的统计数据(我很同意简单的东西是必须的),这个想法是消除业务流程中的差异来源,使它们更可预测并提高质量。许多人认为六西格玛是旧的东西,将消失。也许,但是基本的概念是坚实的,将保持不变:这些也是所有数据科学家的基本概念。你可以说六西格玛是一个简单得多的简单操作研究版本(参见上面的条目),其中统计建模保持在最低限度。风险:非合格人员使用非强大的黑盒统计工具来解决问题,可能会导致灾难。在某些方面,六西格玛是一个更适合业务分析师(见下面的商业情报条目)比严重的统计学家更适合的学科。

定量分析:Quant人只是为华尔街工作的数据科学家,如高频交易或股市套利问题。他们使用C ++,Matlab,来自着名的大学,赚取大笔资金,但当投资回报率太南太快,就马上失去工作。他们也可以从事能源贸易。许多在经济衰退期间被解雇的人现在都在解决点击套利,广告优化和关键词招标等问题。数量有统计背景(少数),数学优化和工业统计。

人工智能:它回来了。与数据科学的交叉是模式识别(图像分析)和自动化(有些人会说智能)系统的设计,以执行各种任务,在机器对机器通信模式中,例如识别正确的关键字(和正确的出价) Google AdWords(付费点击广告系列每天涉及数百万个关键字)。我也考虑过智能搜索(创建一个搜索引擎,返回您期望的结果,比Google广泛得多)是数据科学中最大的问题之一,也可能是人工智能和机器学习问题。一个古老的AI技术是神经网络,但现在正在失去人气。相反,神经科学越来越受欢迎。

计算机科学:数据科学与计算机科学有一些重叠:Hadoop的和映射简化的实现,算法和计算的复杂性,以设计快速,可扩展的算法,数据管理以及网络拓扑映射,随机数生成,加密,数据压缩和隐写等问题。尽管这些问题也与统计科学和数学优化相重叠)。

计量经济学。为什么它与统计数据分开尚不清楚。许多分支机构脱离统计数据,因为它们变得不那么通用,并开始开发自己的特定工具。但简而言之,计量经济学在本质上是非常统计的,使用时间序列模型,如自回归过程。也与操作研究(本身与统计信息重叠!)和数学优化(单纯形算法)重叠。计量经济学家如ROC和效率曲线(六西格玛从业者也是如此,参见本文的相应条目)。许多人没有很强的统计背景,而Excel的是他们主要或唯一的工具。

数据工程:由大型组织中的软件工程师(开发人员)或架构师(设计师)执行(有时由小公司的数据科学家执行),这是计算机科学的应用部分(参见本文中的条目),以便为允许各种数据易于在内存或近存储器中处理,并能很好地流向最终用户(包括大数据消费者,如数据科学家)。目前受到攻击的子域是数据仓库,因为这个术语与静态,孤立的数据库,数据体系结构和数据流相关联,受到NoSQL,NewSQL和图形数据库的兴起的威胁。将这些旧架构转化为新架构(只在需要时)或者使其与新架构兼容,这是一项有利可图的业务。

商业智能:缩写为BI。通过电子邮件发送或交付/呈现给管理人员,竞争情报(分析第三方数据)以及参与数据库模式设计(与数据架构师一起工作),重点关注仪表板创建,度量标准选择,生成和安排数据报告(统计摘要)有效地收集有用的,可操作的业务数据。典型职位是业务分析师,但有些更多涉及市场营销,产品或财务(预测销售额和收入)。他们通常拥有MBA学位。有些人已经学习了诸如时间序列等高级统计数据,但大多数只使用(和需要)基本统计数据,而轻量级分析则依靠IT来维护数据库和收集数据。他们使用Excel(包括多维数据集和数据透视表,但不是高级分析),Brio(Oracle浏览器客户端),Birt,Micro-Sreategy或Business
Objects(作为最终用户运行查询)等工具,尽管其中一些工具越来越多地配备了更好的分析能力。除非他们学习如何编写代码,否则他们将与一些在决策科学,见解提取和演示(可视化),KPI设计,业务咨询以及投资回报率/收益/业务/流程优化方面表现优异的多价数据科学家竞争。商业智能和市场研究(但不是竞争情报)正在经历衰退,而人工智能正在经历一个复苏。这可能是周期性的。部分原因是由于不适应需要工程或数据科学技术来处理和提取价值的新型数据(例如非结构化文本)。

数据分析:这是自1995年以来新的商业统计术语,它涵盖了广泛的应用,包括欺诈检测,广告组合建模,归因建模,销售预测,交叉销售优化(零售),用户细分,客户流失分析,计算顾客的长期价值和收购成本等等。除大公司外,数据分析师是初级角色;这些从业者比数据科学家的知识和经验要窄得多,他们缺乏(也不需要)企业愿景。它们是详细的,并向诸如数据科学家或分析主管等管理人员报告。在大公司中,像数据分析师III这样具有职称的人可能是非常高级的,但他们通常是专业的,缺乏数据获得的广泛知识科学家们在大大小小的公司工作。

商业分析:与数据分析一样,但仅限于业务问题。倾向于多一点财政,营销或投资回报的风味。热门职位包括数据分析师和数据科学家,但不包括业务分析师(请参阅业务智能商业智能入门,不同的领域)。

最后,还有一些最近出现的专业分析学科:健康分析,计算化学和生物信息学(基因组研究)等。





人工智能赛博物理操作系统

AI-CPS OS
“人工智能赛博物理操作系统”(新一代技术+商业操作系统“AI-CPS
OS”:云计算+大数据+物联网+区块链+人工智能)分支用来的今天,企业领导者必须了解如何将“技术”全面渗入整个公司、产品等“商业”场景中,利用AI-CPS
OS形成数字化+智能化力量,实现行业的重新布局、企业的重新构建和自我的焕然新生。

AI-CPS OS的真正价值并不来自构成技术或功能,而是要以一种传递独特竞争优势的方式将自动化+信息化、智造+产品+服务和数据+分析一体化,这种整合方式能够释放新的业务和运营模式。如果不能实现跨功能的更大规模融合,没有颠覆现状的意愿,这些将不可能实现。

领导者无法依靠某种单一战略方法来应对多维度的数字化变革。面对新一代技术+商业操作系统AI-CPS
OS颠覆性的数字化+智能化力量,领导者必须在行业、企业与个人这三个层面都保持领先地位:

重新行业布局:你的世界观要怎样改变才算足够?你必须对行业典范进行怎样的反思?

重新构建企业:你的企业需要做出什么样的变化?你准备如何重新定义你的公司?

重新打造自己:你需要成为怎样的人?要重塑自己并在数字化+智能化时代保有领先地位,你必须如何去做?

AI-CPS OS是数字化智能化创新平台,设计思路是将大数据、物联网、区块链和人工智能等无缝整合在云端,可以帮助企业将创新成果融入自身业务体系,实现各个前沿技术在云端的优势协同。AI-CPS
OS形成的数字化+智能化力量与行业、企业及个人三个层面的交叉,形成了领导力模式,使数字化融入到领导者所在企业与领导方式的核心位置:

精细:这种力量能够使人在更加真实、细致的层面观察与感知现实世界和数字化世界正在发生的一切,进而理解和更加精细地进行产品个性化控制、微观业务场景事件和结果控制。

智能:模型随着时间(数据)的变化而变化,整个系统就具备了智能(自学习)的能力。

高效:企业需要建立实时或者准实时的数据采集传输、模型预测和响应决策能力,这样智能就从批量性、阶段性的行为变成一个可以实时触达的行为。

不确定性:数字化变更颠覆和改变了领导者曾经仰仗的思维方式、结构和实践经验,其结果就是形成了复合不确定性这种颠覆性力量。主要的不确定性蕴含于三个领域:技术、文化、制度。

边界模糊:数字世界与现实世界的不断融合成CPS不仅让人们所知行业的核心产品、经济学定理和可能性都产生了变化,还模糊了不同行业间的界限。这种效应正在向生态系统、企业、客户、产品快速蔓延。

AI-CPS
OS
形成的数字化+智能化力量通过三个方式激发经济增长:

创造虚拟劳动力,承担需要适应性和敏捷性的复杂任务,即“智能自动化”,以区别于传统的自动化解决方案;

对现有劳动力和实物资产进行有利的补充和提升,提高资本效率;

人工智能的普及,将推动多行业的相关创新,开辟崭新的经济增长空间。

给决策制定者和商业领袖的建议:

超越自动化,开启新创新模式:利用具有自主学习和自我控制能力的动态机器智能,为企业创造新商机;

迎接新一代信息技术,迎接人工智能:无缝整合人类智慧与机器智能,重新
评估未来的知识和技能类型;

制定道德规范:切实为人工智能生态系统制定道德准则,并在智能机器的开
发过程中确定更加明晰的标准和最佳实践;

重视再分配效应:对人工智能可能带来的冲击做好准备,制定战略帮助面临
较高失业风险的人群;

开发数字化+智能化企业所需新能力:员工团队需要积极掌握判断、沟通及想象力和创造力等人类所特有的重要能力。对于中国企业来说,创造兼具包容性和多样性的文化也非常重要。

子曰:“君子和而不同,小人同而不和。”  《论语·子路》云计算、大数据、物联网、区块链和
人工智能,像君子一般融合,一起体现科技就是生产力。

如果说上一次哥伦布地理大发现,拓展的是人类的物理空间。那么这一次地理大发现,拓展的就是人们的数字空间。在数学空间,建立新的商业文明,从而发现新的创富模式,为人类社会带来新的财富空间。云计算,大数据、物联网和区块链,是进入这个数字空间的船,而人工智能就是那船上的帆,哥伦布之帆!

新一代技术+商业的人工智能赛博物理操作系统AI-CPS
OS作为新一轮产业变革的核心驱动力,将进一步释放历次科技革命和产业变革积蓄的巨大能量,并创造新的强大引擎。重构生产、分配、交换、消费等经济活动各环节,形成从宏观到微观各领域的智能化新需求,催生新技术、新产品、新产业、新业态、新模式。引发经济结构重大变革,深刻改变人类生产生活方式和思维模式,实现社会生产力的整体跃升。

产业智能官  AI-CPS

用“人工智能赛博物理操作系统”(新一代技术+商业操作系统“AI-CPS
OS”:云计算+大数据+物联网+区块链+人工智能),在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的认知计算和机器智能;实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链





长按上方二维码关注微信公众号: AI-CPS,更多信息回复:

新技术:“云计算”、“大数据”、“物联网”、“区块链”、“人工智能”;新产业:“智能制造”、“智能农业”、“智能金融”、“智能零售”、“智能城市”[b]、“智能驾驶”[/b];新模式:“财富空间”、“特色小镇”、“赛博物理”、“供应链金融”



详细介绍,访问官网:AI-CPS.NET

本文系“产业智能官”(公众号ID:AI-CPS)收集整理,转载请注明出处!

版权声明:由产业智能官(公众号ID:AI-CPS)推荐的文章,除非确实无法确认,我们都会注明作者和来源。部分文章推送时未能与原作者取得联系。若涉及版权问题,烦请原作者联系我们,与您共同协商解决。联系、投稿邮箱:erp_vip@hotmail.com
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: