您的位置:首页 > 理论基础 > 计算机网络

我是如何通过获取网络数据,做出这些数据分析项目的

2020-03-04 22:48 246 查看

最近有很多人在问,我是如何收集网络的数据,如何进行数据处理、数据分析以及可视化呈现的

也有人问的更具体,关于Python数据分析的一些问题。到底应该怎么学?如何快速入门,以及技术和业务之间的瓶颈如何突破?

因为深度的数据分析往往可以看到事情的本质,而这又是一项在任何情况下都超级加分的技能。总结了一些经验,希望能够给还没入门、或者入门之后就遇到瓶颈的新手一些建议。主要是关于如何系统地进行学习规划,以及可以避免的一些坑。 

有的同学看到数据分析几个字,就马上开始Python函数+控制语句、R语言和ggplot库……上来一顿骚操作,还没入门就放弃了。

这就是需求不明确导致的,当然学习方式也值得商榷,那到底数据分析需要什么样的技能呢? 这里作为例子,从招聘网站上找了几个数据分析的岗位,我们来看看具体的要求是怎样的。                             

 其实企业对数据分析师的基础技能需求差别不大,可总结如下:

  • 分析工具:一般要求SPSS/SAS/R/Python等分析工具至少会一种,会两种以上加分,有的企业因内部需求,会指定的一种;

  • 数据库:绝大会要求会SQL,部分要求SQL/NoSQL会一种,高级的分析师或者大型企业要求能够处理大数据,需要Hive(较少的需要Hadoop/Spark);

  • 统计学:若无相关专业背景,需要具备相应的统计学、概率论等基础知识;

  • 数据挖掘:少部分要求会建模,了解基本的算法模型,能够做数据预测,即便不要求,算法也是加分项;

  • 结果输出:Excel/PPT/Tableau。Excel和PPT要求的比较多,主要用作常规的数据呈现,与业务部门沟通等,Tableau一般作为可视化或者分析工具的加分项或者要求之一;

  • 业务/思维:对某个领域(如电商、金融等)相关业务的了解或具有产品、运营方向的分析经验,有自己的数据分析的方法论和项目经验,具备Data Sence。

看上去很简单呀,对吧,但其实你把每个技能拆分开来,都是一个不小的知识体系。如果我们按照数据分析的流程来细分的话,每个部分应该掌握的技能,大概是这样的:          

那对于这个技能体系,应该如何进行技能的训练呢?先后顺序是什么?哪些地方可能出现困难和瓶颈?

按数据分析的流程的顺序循序渐进,你会知道每个部分需要完成的目标是什么,需要学习哪些知识点,哪些知识是暂时不必要的。

接下来我们分别从每一个部分讲讲具体应该学什么、怎么学。- ❶ -

数据获取:爬虫与公开数据

数据是产生价值的原材料,这也是数据分析项目的第一步。

通常我是通过爬虫获取相关数据的,一来数据有很高的时效性,二来数据的来源可以得到保证,毕竟网上的信息是异常丰富的。

这些分布在网上零散的信息,通过爬取整合之后,就有比较高的分析价值。

比如你可以通过爬虫获取招聘网站某一职位的招聘信息,爬取租房网站上某城市的租房信息,获取知乎点赞排行、网易云音乐评论排行列表。基于互联网爬取的数据,你可以对某个行业、某个事件、某类人群进行分析。

在爬虫之前需要先了解一些 Python 的基础知识:数据类型(列表、字典、元组等)、变量、循环、函数………

以及,如何用 Python 库(urllib、BeautifulSoup、requests等)实现网页爬虫。如果是初学,建议从 requests+xpath 开始。

当然,并不是说公开数据就没用了,在进行分析的时候,需要一些历史数据进行对比,需要一定的行业标准进行参考的时候,公开数据的价值就体现出来了。

一些科研机构、企业、政府会开放一些数据,还有一些行业研究报告、他人的调查结果,都可以成为你的数据来源。这些数据集通常比较完善、质量相对较高。- ❷ -

数据存取:SQL语言

我并不是每次都会用到数据库,但很多时候这确实是做数据分析项目的必备技能,包括求职就业,也是必选项。

通常数据库的使用能够让数据存储、管理更方便,同时也能提高数据提取和使用的效率,特别是在数据上了一定的量级之后,谁用谁知道。

大多数的企业,都会以SQL的形式来存储数据,如果你是一个分析师,也至少要懂得SQL的操作,能够查询、提取公司的数据。

SQL作为最经典的数据库工具,为海量数据的存储与管理提供可能,并且使数据的提取的效率大大提升。需要掌握以下技能:

  • 提取特定情况下的数据:企业数据库里的数据一定是大而繁复的,你需要提取你需要的那一部分。比如你可以根据你的需要提取2017年所有的销售数据、提取今年销量最大的50件商品的数据、提取上海、广东地区用户的消费数据……,SQL可以通过简单的命令帮你完成这些工作。

  • 数据库的增、删、查、改:这些是数据库最基本的操作,但只要用简单的命令就能够实现,所以你只需要记住命令就好。

  • 数据的分组聚合、如何建立多个表之间的联系:这个部分是SQL的进阶操作,多个表之间的关联,在你处理多维度、多个数据集的时候非常有用,这也让你可以去处理更复杂的数据。

SQL这部分比较简单,主要是掌握一些基本的语句。当然,还是建议找几个数据集来实际操作一下,哪怕是最基础的查询、提取等。

  - ❸ -

数据处理:Pandas/Numpy爬回来的数据通常是不干净的,数据的重复、缺失、异常值等等,这时候就需要进行数据的清洗,把这些影响分析的数据处理好,才能获得更加精确地分析结果。那么我们需要用相应的方法去处理,比如重复数据,是保留还是删除;比如残缺数据,我们是直接去掉这条数据,还是用临近的值去补全,这些都是需要考虑的问题。对于数据预处理,学会 pandas/Numpy (Python包)的用法,应对一般的数据清洗就完全没问题了。需要掌握的知识点如下:

  • 选择:数据访问(标签、特定值、布尔索引等)

  • 缺失值处理:对缺失数据行进行删除或填充

  • 重复值处理:重复值的判断与删除

  • 异常值处理:清除不必要的空格和极端、异常数据

  • 相关操作:描述性统计、Apply、直方图等

  • 合并:符合各种逻辑关系的合并操作

  • 分组:数据划分、分别执行函数、数据重组

  • Reshaping:快速生成数据透视表

数据清洗通常被视为脏活,但事实上这步非常重要,这直接决定了你的分析结论的准确性,决定你的项目是否能顺利进行下去。
- ❹ -

数据分析与可视化

这个是从数据中发现信息、挖掘价值的过程,大多数的结论在这个步骤产生,主要做两件事情。

一是对于既定的数据分析主题进行拆解,评估需要从哪些维度进行分析,提取哪些数据,这个步骤很大程度上来源于经验或者对于具体事务的理解;

二是通过探索数据分布的规律、数据的特征,发现从表面看不到的信息,完成这个流程主要是通过数据本身进行探索。

前者对应的是描述性的数据分析,主要考虑数据的指标,看从不同的角度去描述数据能够得出哪些结论。

这个地方就需要对统计学的相关知识有一定的了解,比如:

  • 基本统计量:均值、中位数、众数、百分位数、极值等

  • 其他描述性统计量:偏度、方差、标准差、显著性等

  • 其他统计知识:总体和样本、参数和统计量、ErrorBar

  • 概率分布与假设检验:各种分布、假设检验流程

后者则是探索型的数据分析,主要通过绘制数据的分布图形,来观察数据的分布规律,从而提取隐藏的某些信息。

这里就需要对掌握可视化的技能,Python中的Matplotlib/Seaborn都可以完成可视化的工作。可视化既是探索性分析的工具,也可以输出最终结果呈现的图形。

当然,还有一种是预测型的数据分析,需要构建模型来预测未来数据,我在推文中用的比较少,但在企业中应用非常多。

做数据分析的话,会用比如线性回归、逻辑回归、决策树等这些基本的算法,用于解决基本的回归和分类问题,就OK了。

 ● ● ●- 系统学习成为分析师 -

所以,如果你是真的想系统地去学习数据分析,从工具、流程、业务、思维等层面逐个击破,有目的地系统学习和基于真实项目进行训练,以learning by doing 的形式,我想把这门课推荐给你。

DC学院的数据分析师训练营完全以职业为导向,通过实际的项目流程,训练真实的工作技能。十周的系统训练,除了掌握基础的技能,还有能获得大量的项目经验。

这是训练营的第1期开班,优惠力度足够大(名额有限),相信之后你不太能够以如此低的价格加入,或者说是参与类似的系统性训练
十周系统训练,掌握专业数据分析师的技能首期立减400,优惠限前50名开课7天内无理由退款↓↓↓ 扫码了解训练营详情 ↓↓↓

01 

课程设计

为了打造这样的训练营,我们花了6个月的时间去打磨:

 

????为了保证技能的全面性和深度

我们调研了众多的数据分析岗位,和数十位分析师进行了深度的内容探讨。

让课程内容能够满足主流企业的需求,也具备不同行业、领域的数据思维和分析方法。

????在学习的流畅性方面,

我们也对学习路径进行了数十次的迭代,从技能板块的学习逻辑到细节知识的设置和筛选。

既让课程能够使不同背景的同学高效学习,也尽可能地提升学员能够达到的技能上限。

????特别是案例和作业项目部分,

尽量地还原真实工作中的业务流程,融入尽可能多的技能栈,所以每个项目都是训练的综合应用能力,和解决实际问题的能力。

我们始终坚信,大量的真实训练,才是知识内化和迁移的关键

 

以下就是我们这次训练营的课程主体大纲(学习计划周次可以扫码了解),十周的训练,足以让你打败市面上多半所谓的据分析师:           

02 

实战案例

除了课程中实时穿插的小案例巩固细节知识点,另有6大企业项目实战,涉及电商、房产、金融、招聘、社交等多领域。

这些案例在课程中都有详细的讲解,关于问题拆解的思路,使用的技术细节,代码的编写,以及逐步的效果展示。

帮助你训练数据采集、分析方法、编程技巧、模型搭建、报告撰写等全方位技能,丰富项目经验。

 

03 

作业项目

除了众多的实战案例帮助你实时巩固技术之外,另外每周都有基于真实业务问题的作业项目。你需要根据每周的学习,来解决这些在工作中存在的问题。

最重要的是,每周提交的作业项目都有老师1v1批改逐行代码审阅,评估学习效果,并给出针对性的学习建议。

可以很负责任地说,认真完成这些作业项目,最终形成的这个作品集,将可以成为你求职就业非常棒的加分项
△ 部分作业列表 △ 内测学员部分作业批改

04 

学习收益

训练营完全按照数据分析师职位的技能需求进行打造,既保证技能的全和深,也在此基础上尽量简化学习的内容,以提高效率

 

当然,必要的横向的扩展还是会有的,比如小规模数据的Excel分析,利用其它可视化/报告工具进行数据分析报告的输出,这些必要的技能在课程中会有所涉及,也是数据分析师的绝对加分项。

总体来说,你将得到工具使用、编程能力、数据库能力、分析能力、数据思维五个方向的锻炼,成为具有综合能力的分析师,而不是数据处理员。

05 

陪伴式学习   

为了帮你更好地学习和训练,DC学院数据分析师训练营采用定期班级教学的模式。

已经帮你安排好学习计划,总共十周训练,你可以轻松地掌握全方位的数据分析技能

 

班主任会时刻监督你的学习进度,不定期小窗问候。群里面老师会帮助你实时解决学习上的问题(7×12小时那种),还有一群颇具潜力的同学,和你探讨作业,分享经验。

在课程正式上线之前,课程经过了多次的内测和迭代。训练营好不好?听听内测学员怎么说:  如果你是以下人群之一:

  • 还是没有形成专业分析方法以系统经验的野路子分析师

  • 想提升分析能力,拿起数据的武器为自己说话的互联网职场人

  • 希望突破职业瓶颈,转行进入数据科学等前沿行业的求职者

  • 或是对人工智能、机器学习、python大法感兴趣的在校学生。

这个训练营就是为你而定制!    十周系统训练,掌握专业数据分析师的技能 
首期训练营名额有限,先到先得¥1299 (原价¥1699)首期优惠仅限前50名

 开课7天内无理由退款 扫描下方二维码了解课程详情  如果还有更多课程问题扫下方二维码添加Amy小姐姐  添加后可获取《数据分析师训练营知识体系详解》《数据分析师成长指南》一份数据分析超级学习资料包

  • 点赞 6
  • 收藏
  • 分享
  • 文章举报
weixin_38753103 发布了22 篇原创文章 · 获赞 141 · 访问量 2万+ 私信 关注
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: