小伙子不讲武德,竟用Python爬取了B站上1.4w条马老师视频数据来分析
看到标题,
啪的一下你就进来了吧!
如果有经常刷B站的小伙伴,肯定都知道B站鬼畜现在的顶流是谁?
印度:没错正是在下
那必须是当代大师浑元形意太极拳掌门人「马保国」先生啊!
实话讲,马保国走进大家视野还是他5月份PK被人连续KO三次。
不过现在他在鬼畜区的主要素材却是马保国更早时候的一些视频。
比如2020年一月份,右眼被蹭了一下的马老师面带微笑,为我们生动形象地讲述了健身房里的年轻人是如何不讲武德,偷袭他的故事。
在视频里,他控诉踢馆的年轻人 “ 不讲武德 ” ,劝他 “ 耗子尾汁 ” 。可以作为B站入站题目,建议全文背诵。
B站这个小机灵鬼,甚至还给马老师专门开了专栏,这为我们后续爬取数据也带来了便利。
跟平时爬取B站不太一样,在B站的马保国专栏下,F12可以轻松找到接口。
https://api.bilibili.com/x/web-interface/web/channel/multiple/list?channel_id=3503796&sort_type=hot&page_size=30
解析JSON后我们需要的数据都可以获得。
其中要提到一点,url中的
offest从解析上一个url的json中获取,如如下图所示。
通过简短的爬虫代码,
很快啊,很快就爬取了1.4万条马保国先生的视频数据。
def get_data(url,headers): data_m = pd.DataFrame(columns=['id','name','view_count','like_count','duration','author_name','author_id','bvid']) html = requests.get(url,headers=headers).content data = json.loads(html.decode('utf-8') 1ebfc ) offset = data['data']['offset'] print(offset) for j in range(30): data_m = data_m.append({'id':data['data']['list'][j]['id'],'name':data['data']['list'][j]['name'], 'view_count':data['data']['list'][j]['view_count'],'like_count':data['data']['list'][j]['like_count'], 'duration':data['data']['list'][j]['duration'],'author_name':data['data']['list'][j]['author_name'], 'author_id':data['data']['list'][j]['author_id'],'bvid':data['data']['list'][j]['bvid']},ignore_index=True) return(offset,data_m)1.4万条数据预览
我们先进行简单的数据整理(播放量有的是万为单位)后,将1.4万个视频按照播放量和点赞量制作了一个散点图。
可以看到什么才是“顶流”的话题,播放量几百万,点赞量几十万的相关视频特别多。
按照播放量排序一下。
第一名就是今年一月份相声泰斗马老师经典单口相声!!!
那按照点赞量呢?
第一名是来自鬼畜up主的伊丽莎白鼠“武 林 高 手”!
而懂王与马老师的联动表现也很优秀!
其中几个特效向的表现更是突出!
由于马老师的语录太过经典,我决定再补充爬一下它的弹幕。
# 绘制词云图 stylecloud.gen_stylecloud(text=' '.join(text1), collocations=False, font_path=r'C:\Windows\Fonts\msyh.ttc', icon_name='fas fa-play-circle', size=653, output_name='马保国词云图.png') Image(filename='马保国词云图.png')
耗子尾汁真是门面担当!
婷婷、英国大理石、塔门说也夹杂其中。
最后小五想推荐几个视频:
1、比较喜欢的人力VOCALOID
2、技术向的标杆,重点是小芃授人以渔!
3、最后观察者网的视频给大家呈现了一个更多元的,“三维立体浑元”的马老师,甚至还发掘出了一些闪光点,而非一味的玩梗。
福利时间
介绍一本????:《Django实战 Python Web典型模块与项目开发》Python Web项目开发框架,从基础知识、典型模块到项目开发,面向实战,直击Django开发痛点,提高开发效率。点击下图可看详情/购买!????
感谢人民邮电出版社的支持!「凹凸数据」300积分兑换????!
- 2020某培训机构全栈python3视频人工智能网络爬虫数据分析全栈课程
- 视频教程-完胜数据分析之Python五套件-Python
- 【备忘】最新python数据分析升级版视频教程
- 2018最新Python数据分析实战教程视频 python数据分析班视频 Python数据分析基础教程 利用Python进行数据分析
- 《用python 玩转数据》项目——B站弹幕数据分析
- 2018最新小象学院Python数据分析视频教程升级版第2期
- 视频教程-Python数据殿堂:数据分析与数据可视化-Python
- python之数据分析可视化(b站排行播放量,简单详细)
- 视频教程-数据分析工程师高效特训营-直播回放-Python
- 视频教程-Python基础与应用(Python,数据分析和网络爬虫)-Python
- 最新小象学院Python数据分析视频教程升级版第2期
- 视频教程-完整的Python和SAS数据分析-大数据
- 视频教程-清华-尹成老师-Python数据分析海量数据营销day8-Python
- 500G python web、爬虫、数据分析、机器学习、大数据、前端实战项目视频代码免费分享
- [Scala + Python] Flink实时分析B站公开数据
- 视频教程-Python金融数据分析入门到实战-Python
- B站学习云开见明:Python数据分析入门到精通学习笔记
- 视频教程-python3数据分析与机器学习-机器学习
- Pandas教程:使用Python和Pandas分析视频游戏数据
- 视频教程-1天搞定Python进阶课程-数据分析库Pandas-深度学习