您的位置:首页 > 其它

数据分析与数据挖掘方面招聘的笔试题分享

2014-04-10 10:19 281 查看
上网搜索到一些相关职位的笔试题,集结于此,希望对大家有用
A、阿里巴巴2011数据分析师实习生笔试题

1.什么是异常值,列举一种找出连续型变量异常值的方法。

2.什么是聚类分析,有哪些聚类分析方法,写出原理和算法。

3.SQL题,给出一个表,写SQL语句,创建表名为B(结构和原表一样),按列出最早访问的url

id:用户名

time:用户访问时间

url:用户访问网页

4.一个B2C网站,用户群是办公室女性,一个表是一周的销售额:工作日的销售额都是5000-5100,周六大概是3400,周日大概是3000

(1)从表中数据看出什么,分析其原因

(2)写一个运营计划

5.有ABC三类客户,现有一个改进计划,设计数据分析调研支持该决策

(1)调查需要提供什么数据

(2)如何制定用户群、数据指标,采用什么调查分析方法

B、百度2011数据挖掘研发工程师实习生笔试题

一、简答题30分

1. extern”C”{}的作用还有应用场景;

2.写出两者你熟悉的设计模式,及应用场景,可以给出伪代码;

3.TCP中time_wait是表示那种状态,及应用场景,以及起好处和坏处;

二、算法题40分

1. 有一个任务执行机,任务数N<1000,该机器每次只能执行一个任务,而任务之间存在依赖关系,但是任务之间没有循环依赖,请给出适当的任务执行顺序。算法、伪代码,并分析其时间复杂度和空间复杂度。

2. 编写函数,统计在某段英文文本中完整句子的数目,文本中只包括大小写字母,空格,点号(.),逗号(,)。

完整的句子必须包含至少一个字母并以点号,结束。

要求:完整的代码,达到目标;高效;简洁;

三、系统架构30分

有一个监控系统,有大量的数据记录包括{url,用户访问ip,时间},要对这个监控系统进行维护,并提供查询。

设计一个能存储和维护1000亿条记录,实时监控,并支持一下两种查询:

1. 指定任意一个时间段(精确到分钟)和某个url,查处这个时间段内的所有url的访问总量。

2. 指定任意一个时间段(精确到分钟)和某个ip,查询这个时间段内的ip访问总量。

C、亚信2009数据分析师笔试题记忆版两小时内完成

先填一张表,包括个人信息以及对亚信的简要认识等
第一部分 基础题  4道

1.某过桥费实行单一价2元,不太合理,应该怎么进行过桥费的收取

4.如果你是上海移动的咨询,如何做会上海世博会的举办工作,有哪些解决方案
第二部分 统计数据挖掘题  10道

1.计算平均有哪些指标,各有哪些优缺点

2.数据库查询语句,给了两个表

3.相关分析和回归分析有什么关系

4.给出一组数据说是服从正态分布,求方差和均值

5.给出一个概率分布函数,求极大似然估计

6.决策树和神经网络在数据预处理过程中用到哪些方法

7.数据挖掘的应用步骤

8.给出浙江移动的移动客户数和缺失率,问如何建立客户缺失率预测模型会遇到哪些难题如何解决

9.给了一段文字,大概是说预测彩信用户量的。三个小问题,a,问会用到哪些统计数学模型,如何选择模型为什么 b 如何客户变量间的数据相关性 c 如何评价模型
第三部分 逻辑推理题 2道

1.给出4个论述,说其中只有一人是正确的,给出了5个答案,说出哪个答案正确

2.5个人分100颗钻石问题

  5个海盗分100颗宝石,每个人提出一种意见,如果意见有半数或以上通过,就算通过并实施,否则把提出意见的丢海里干掉,如果第一个人意见没通过就杀掉并由第二个人提出建议,以此类推。

条件:每个海盗都是很聪明的人,都能很理智的判断得失,从而做出选择。第一保命,第二挣钱,第三尽可能多的杀人

问题:第一个海盗提出怎样的分配方案才能够使自己的收益最大化

迅雷产品经理:笔试,一面,hr面试

10名词解释

B2C 、超文本、CDN、ed2k 、知乎、facetime、Instagram、社会化营销、轻博客

答:B2C,商家对个人客户,商客将自己的产品发布到网供个人客户进行在线购买。

超文本:一种标志语言。

CDN:

Ed2K:

知乎:一个问答式社区模式,由李开复的创新工场进行投资,类似于QQ问问,不同的是回答问题的人都是属于实名注册的个人,并在此方面有着个人专长。

Facetime:

Instagram:

社会化营销:

轻博客:以图片的方式展示博客内容,模拟现实中的杂志。

10道公务员行测题目,涉及数列推算、图形推算、逻辑分析这些常见。

答:做过神码相关面试题,虽然脑袋不怎么聪明,但还能达到及格线。

6道陈述题才是重头戏。
(1)腾讯微博和新浪微博有什么不同点,为什么会这样?他们的商业模式有可能发展成怎么样?

不同点是1.腾讯微博更具媒体属性,强调信息的传播;新浪微博更具社区属性,强调人的关系。2.战略地位不同。新浪微博承担顶梁柱作用,而腾讯微博处于保守位置。 导致现在这样的原因是1. 初期发展的情况不同。新浪微博更早上线,借助其媒体优势,利用名人效应吸引用户,为新浪公司的新一轮发展打下基础。而腾讯则借助其QQ用户,通过推广把部分QQ用户转化成微博用户。在2者的用户量旗鼓相当之后,发展的趋势开始不同。

2.盈利压力不同。腾讯微博不盈利对于腾讯的主体业务影响不大,但新浪微博作为新浪发展的第二春,急需通过盈利在让公司更好发展。

商业模式:腾讯微博->导入流量到门户网->增加PV-> 增加广告收入 间接盈利

新浪微博 :游戏道具等虚拟道具的买卖 直接盈利

答:腾讯微博更加娱乐化、群体化,交互的范围基本上是QQ用户群体当中传播。新浪微博的传播速度更快,影响力更广,实名制注册用户多,广而告之。新浪是国内较早开始进军微博的公司,以先入为主的方式讯速占领了国内市场,拥有2亿多的注册用户,腾讯利用QQ的原有用户群通过集成方式后来崛起,可以说是一种捆绑模式。

商业模式:新浪微博经过2年多的发展,其商业模式也在逐渐清晰,广告与游戏是其主要盈利点,同时提供开发接口来供其它商家接入。腾讯是不惜代价的方式开展微博业务,为的不是盈利,而是想通过建立腾讯微博来制约新浪微博发展,同时开展新的pv增值业务。

(2)描述一个消息框。就是迅雷删除任务时弹出的消息框

答:这个题目我估计说的不是很完整,以讯雷win7版本来说,要考虑几种情况下的删除模式,从状态来说分为正在下载、错误下载、中止下载、完成下载,从任务数目来说分为单任务与多任务。删除任务时弹出的消息框有

1、 您现在有任务正处于下载状态中,是否进行删除?是+否。

2、 对于已完成的任务不需要进行提示。

(3)分析比较迅雷看看和优酷的不同,各有什么优缺点

不同点:1。内容的生产方式。迅雷看看是官方生产,优酷则是网友上传+官方生产

看看的优势:PC端+客户端的浏览渠道更加方便

缺点:1.电影的版权投资较大,给公司的财务压力大

2.电影制作周期长,网站更新的频率、数量较少。

优酷的优势:1.版权压力较小

缺点:1.网友上传容易造成内容重复,给搜索带来不好的体验

答:虽然都是属于视频范畴,但于讯雷看看相对比较适合看电影,还能一边看一边下载,优酷本身提供的是短片模式,适合10分钟以内的视频短片。随着视频网络的发展,优酷与讯雷看看在国内已经成为知名的两大视频互联网公司,视频开始前都通过播放广告方式来产生盈利。但优酷的短片更利于通过浏览来进行快速的分享与传播,并与各大互联公司有合作。讯雷看看是一种播放器模式,讯雷公司独立使用,不能分享与传播,属于互联网单一的播放模式,看看即能在线又能离线播放,讯雷看看在线所播放的涉及到影视版权问题也制约着看看的发展。

(4)网购会取代传统的实体店购物吗?为什么?

不会完全取代。

1. 部分商品属性的限制,如价值高、易碎等。2物流体系尚未完善。

答:不会取代,网购只是一种新型提供商品买卖交易的载体,网购本身提供的也是一种实体或虚拟商品,只不过通过互联网来进行网购使买卖双方不用见面就能完成商品产易,节约了购物的时间,节省了资金,但网购毕竟无法真实切身的体现商品的质量、大小、规格,通过实体店购交易会使购物更加愉快与真实,另外网络环境、资金安全、商家信任体系、物流等方面的有效建设都对网购的发展起着决定作用。

(5)设计一个30-40岁的网络社区,谈谈你的设计思路

1.调查这个人群的电脑使用情况,家庭背景等人群特征

2.明确社区的概念。社区通过提供某种服务来维持人的关系 (战略层)

3.收集整理资料,确定提供的服务的范围和边界 (范围层)

4做好内容分类,做好好导航设计(结构层)

5界面设计与数据库开发(表现层)
(6)如果你是一个CEO,年末清盘账面还有2000万,你如果在下一年规划这2000万。

1.分析财务报表中盈利较高的业务,优先考虑投资

2.维持基础硬件设施的基本维护,如数据库、带框

3.增加员工的福利

4.投入新产品的开发
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息