数据分析告诉你,韦小宝跟他七个老婆哪个最亲?
2018-03-30 00:00
405 查看
作者简介Introduction挖数 腾讯数据产品经理 & 段子手
个人微信公号:washu66
往期回顾99.9%的数据分析师,都做不到这些
爬虫数据分析【旅游篇】
你的生殖冲动,繁衍了这个价值1000亿美金的产业
金庸的“飞雪连天射白鹿,笑书神侠倚碧鸳”,唯独《鹿鼎记》写的最是香艳动人,年少时阅此书,每每春心荡漾,心里如钻进小鹿。
刁蛮任性的建宁公主、天香国色的阿珂、温柔懂事的双儿,在当时年少的我心中,真是得一个足矣。
作者在写小说时,往往会将自己代入到书中主角,因此金庸写韦小宝,往往是在写他自己,或者说是期望的自己。
因此要看韦小宝与七个老婆谁最亲,可以看书中韦小宝与七个老婆谁的互动最多。
首先下载《鹿鼎记》整本小说的txt。
韦小宝一听大喜,心想:“原来你名叫阿珂,终于给我知道了。”他随伴白衣尼多日,知她喜人恭谨谦让,在她面前,越是吃亏,越有好处,忙道:“师太,姑娘这两脚原是该踢的,实在是我不对,真难怪姑娘生气。她便再踢我一千一万下,那也是小的该死。”爬起身来,双手托住下颚,只痛得眼泪也流了出来。这倒不是做作,实在那一脚踢得不轻。
然后我们定义这样的指标:
七个老婆名字与韦小宝在同一段落一起出现的次数,作为 亲密度 指标,如以上段落,韦小宝和阿珂的亲密度+1。
找到七个老婆的名词:阿珂苏荃/洪夫人建宁公主/建宁双儿沐剑屏/郡主方怡/方姑娘曾柔/曾姑娘
将《鹿鼎记》txt按照段落,分割成11581个txt文件。
分割文件的python代码:
s = open('d:/lu/lu.txt','r')
q = s.read()
f = q.split('')
x=1
for i in f:
b = open('d:/lu/'+str(x)+'.txt','w')
b.write(i)
x+=1
print x
s.close
然后用python的结巴分词包,去匹配每个名字在每个段落是否有出现,出现标记为1,否则为0.
x=1
result={'xiaobao':[],'ake':[],'suquan':[],'jianning':[],'shuanger':[],'junzhu':[],'fangyi':[],'zengrou':[]}
while x<=11581:
a={'word':[],'count':[]}
f=open('d:/lu/'+str(x)+'.txt','r').read()
words=list(jieba.cut(f))
if u'韦小宝' in words:
result['xiaobao'].append(1)
else:
result['xiaobao'].append(0)
if u'阿珂' in words:
result['ake'].append(1)
else:
result['ake'].append(0)
...
再两两计算在段落里一同出现的次数。
result2={'role':[],'xiaobao':[],'ake':[],'suquan':[],'jianning':[],'shuanger':[],'junzhu':[],'fangyi':[],'zengrou':[]}
for a in b.columns.values:
x=xiaobao=ake=suquan=jianning=shuanger=junzhu=fangyi=zengrou=0
while x<=11580:
if b.iloc[x][a]==1:
if b.iloc[x]['xiaobao']==1:
xiaobao+=1
if b.iloc[x]['ake']==1:
ake+=1
...
x+=1
result2['role'].append(a)
result2['xiaobao'].append(xiaobao)
result2['ake'].append(ake)
result2['suquan'].append(suquan)
result2['jianning'].append(jianning)
result2['shuanger'].append(shuanger)
result2['junzhu'].append(junzhu)
result2['fangyi'].append(fangyi)
result2['zengrou'].append(zengrou)
o=pd.DataFrame(result2)
o.to_csv('d:/lu/lu2.csv',mode='w',encoding='UTF-8')
最后生成这样一份矩阵的csv文件。
由以上矩阵可以得出韦小宝跟七个老婆的亲密度如下:
韦小宝&双儿:327韦小宝&沐剑屏:278韦小宝&阿珂:203韦小宝&方怡:147韦小宝&苏荃:135韦小宝&建宁公主:47韦小宝&曾柔:28
实际以上不仅算出韦小宝跟七个老婆的亲密度,还算出了七个老婆两两之间的亲密度。
我们将以上矩阵丢进Gephi(一款画关系矩阵的可视化软件),以散点的大小代表名字出现的频次,以线的粗细代表亲密度的大小,得到这样一张图。
所以,是双儿笑到了最后
最喜欢周星驰版的双儿 (~﹁~)
同理,我还做了《还珠格格》的关系图
计算了包括小燕子、紫薇、乾隆、尔康、五阿哥、金锁、尔泰、皇后、令妃、塞娅、柳青、柳红在内的亲密度。
发现《还珠格格》原来讲的是小燕子、紫薇和乾隆三角恋的故事,其他角色都是打酱油的 ╮( ̄▽  ̄)╭
所以,姜还是皇阿玛的辣
最后,手把手教你怎么用Gephi画关系图。
1、首先,从官网下载Gephi;
2、文件-导入表格,根据数据形式选择类型,本文是选择矩阵;
3、耐心调整数据,包括结点、边的颜色和大小(选完记得点应用),结点的标签要点T才能展示,然后一些lable要在数据资料那里赋值才能展示出来;
4、最后,预览,刷新,然后输出图片。
End关注我,定期推送数据分析相关的有趣文章2018天善智能SVIP热力来袭学你所想,冲破禁锢!特色课程,15选8,学习目标一网打尽点击阅读原文查看详情
点击“阅读原文”立即开始学习吧!
相关文章推荐
- 哪个地区的老司机最爱看色情电影?|IP BT种子大数据告诉你!
- 「大数据」告诉你,互联网行业哪个职位比较有“钱途”?
- 数据分析告诉你:转化才是王道
- 心得丨一文告诉你想学数据分析该读什么书、从哪本读起
- Tableau&BDP,哪个才是最适合中国用户的数据可视化分析工具?
- 陈小春版韦小宝七个老婆简介
- 诸葛告诉你如何用数据来做渠道效果的分析
- 韦小宝七个老婆的武功排名
- 17年数据分析经验告诉你大数据行业的门道
- 告诉你什么是数据分析
- 诸葛告诉你怎样解读数据分析结果?
- 美女头像这么多,他们用大数据告诉你哪个是骗子
- web数据采集核心技术分享系列(三)如何破解验证码?图像分析?特征匹配?人工智能?第三方集成?...哪个最强大?
- 分析了六百万字的歌词数据,告诉你中国的Rapper都在唱些啥?
- 3张图告诉你如何用简单的数据分析监控设备隐患
- 蚂蚁金服美女分析师告诉你:从数据分析到数据洞察,我们是这么玩儿的
- 数据分析告诉你七大科技巨头的应收、利润、市值的差异
- python数据分析3:双色球 单个红和蓝球哪个比例高
- UFO长啥样?--Python数据分析来告诉你
- 一张图告诉你如何分析数据以及选择算法