大数据分析42万字的歌词,为了搞清楚民谣歌手们在唱些什么
2017-11-24 00:00
274 查看
“
我选取了大约30个或比较大众,或比较小众的民谣歌手和乐队,包括李志,夭十三,赵雷,宋冬野,周云蓬,逃跑计划等等,为了设立参照,我还取了一些其他风格的乐队,比如老一些的汪峰,窦唯,朴树和新一些的低苦艾,谢天笑,反光镜,草东等等。
我首先写了一个爬虫,它可以根据歌手或乐队的名字来自动抓取这个歌手的所有歌,为了保证平衡,我最多只抓取前50首歌。
”
这样,我得到了小一百个装满歌词的文件,我都能感觉到从里面溢出来的文艺了。接下来,我开始了对这些歌词(约42万字)的分析。
首先是情绪分析
数值的分布比较平均,但大致可以看得出有三个分类,一类是特别开心的,例如郝云。丢火车乐队歌词中出现次数最多的三个词分别是「永远」「晚安」「倔强」,这些都是正面情绪的词。第二类则是比较忧伤的,以我们熟悉的逼哥为代表,他们的歌词中充斥着孤独,沉默,泪水等词语。虽不暴力,但是多少有一些黑暗。
第三类则以赵雷为代表,比较平静,就像一个朋友给你讲故事,不疾不徐,娓娓道来,里面也有开心,也有难过,但总体情绪趋于中值。这也许解释了为什么赵雷这么晚才火起来的原因——平淡的情绪较难快速给人以强烈的冲击。但无论如何,好的音乐总会被人们发掘。
基于某种趣味,我又分析了一下其他风格的音乐的情绪分析
民谣的情绪很丰富,而摇滚的情绪则大多是负面的,人们说,没有愤怒就没有摇滚,这话至少在歌词的情绪上是正确的。
民谣歌手最喜欢什么季节?通过对歌词的分析,这个问题也可以解决
由此可见,最受欢迎的是春天和冬天,最不受欢迎的是秋天。
同样的,我也分析了歌手们最喜欢的城市,结果如下
可以看得出,北方城市完全战胜了南方城市,成了在歌词中被唱的最多的地方,特别是北京,一共出现了81次。说到一线城市,人们会说北上广深,但是在民谣的世界里,北京绝对是不可撼动的存在。南方城市只有成都勉强露了几个照面。
难以理解的是,虽然北方城市大获全胜,但是歌手们却更多的念叨着「南方」而不是「北方」,「南方」比「北方」多出现了大约5.7%
另一个我感兴趣的问题是,民谣歌手们是在向前看还是向后看,是往未来寄托希望,还是缅怀过去?
看得出,民谣歌手是在往前看的,至少是活在当下的,「明天」这个词在歌词中出现的次数最多,接着是「今天」和「昨天」,而「前天」和「后天」则几乎可以忽略不计,这也是可以理解的,比如说「我拿青春赌明天」,这听上去很美好,如果要说「我拿青春赌后天」乃至于「我拿青春赌下个月5号」,就听上去就像一个赌徒发疯了。
如果把民谣拟人化,那应该是一个喜欢南方的北京小伙子,觉得世界很操蛋,但骂归骂,到底是对生活有希望的,憧憬着明天,在春天感到快乐,在冬天感到孤独,没有女朋友,但有几个纠缠不清的前女友,经常和她们见面,见面的地方可能是成都,昆明,南京,上海,武汉。。。。。
推荐阅读
虾米音乐app代码骂用户是穷逼VIP….原来代码能隐藏这么好玩的内容
我偷看了老板的微信分组,然后……
最骚气的APP更新文案盘点
小编喵喵个人微信号:itmiao520 懒人回复"喵喵"扫码添加。
点击左下角阅读原文查看更多长知识文章!
相关文章推荐
- 我分析了42万字歌词,就为了搞清楚民谣歌手们在唱些什么
- Python大佬分析了15万歌词,告诉你民谣歌手们到底在唱什么
- office 2010的规划求解和数据分析在什么地方,怎么加载office2010规划求解和数据分析
- Eason Chan 歌词20W字文本数据分析
- 小白学数据分析----->什么是DAU_II [玩家粘性分析模型]为什么游戏粘性会达到60%
- 心得丨一文告诉你想学数据分析该读什么书、从哪本读起
- 我是数据分析师(二):假老公又提数据分析要多表关联—为了爱情,我忍了
- 小白学数据分析----->什么是活跃_I(DAU)
- 时间序列数据库——索引用ES、聚合分析时加载数据用什么?docvalues的列存储貌似更优优势一些
- 什么是数据分析?
- 传统企业开展数据分析工作缺什么?
- 存储分析 Watson对于数据存储意味着什么?
- hibernate导入大量数据时,为了避免内存中产生大量对象,在编码时注意什么,如何去除?
- 我是数据分析师(二):假老公又提数据分析要多表关联—为了爱情,我忍了
- 数据分析是干什么的
- 数据分析在实际工作中有什么区别吗
- 关于什么是数据分析
- App数据分析到底要分析什么
- 什么是高大上的数据分析方法?
- 移动APP数据分析能做什么