您的位置:首页 > 其它

飞桨paddlepaddle课程7日打卡

2020-05-09 04:16 2356 查看

这是第一次在公开的地方写下一些学习后的心得,已经关注飞桨很长时间了,AI Studio平台经常会发布很多课程,可惜前期因为种种原因没有跟下去,这一次python小白逆袭大神课程(当然,我还是个小白)坚持下来了,但因为白天依然需要工作,所以每天做作业需要熬夜到凌晨, 但也很开心因为这过程中学到很多东西。这次记录希望总结一下学习中遇到的问题,给自己以后做个提醒~

Day1:在第一天的作业中是关于乘法口诀的输出和特定名称文件的查找,由于之前有一些python的基础,所以输出口诀的任务不是特别困难,需要注意输出的格式,比如每一行的内容输出后会默认换行,这时候需要用到print中的 end=' '表示不换行。特定文件路径的问题是需要用到os.walk()方法的,for root,dirs,files in os.walk(path):  path表示要搜索的文件路径,root表示该路径下包含的所有文件夹路径,files表示每个文件下的文件名。(文件和文件夹的区别)

Day2:爬取百度百科中《青春有你2》中所有参赛选手信息,这一天也是第一次接触到爬虫,大致了解了从发送请求的requests模块到解析数据的BeautifulSoup模块的使用方法。

Day3:通过前一天爬取的信息绘制柱状图和饼图,这里我需要提取选手的体重信息,按照不同的体重间隔进行分类再可视化出来。遇到的主要问题是1)、原始的每个体重数据都包含’kg‘,我需要去掉它,当时用了一种比较笨的方法,遍历了全部体重,数组切片后把前两位(如44kg)或前四位(如44.5kg)提取出来,然鹅,当天老师的启发下,我意识到可以从后往前切啊。。。用到[0:-2]

2)、在区分体重区间([0,45,50,55,100])的时候,我用的方法还是遍历+if判断,然鹅,可以有更简单的方法,用到了pandas里面的方法一个是pd.cut(array,bin),array是所有体重的数值,bin是区间。然后做出的图是下面的样子:

 

 

Day4: 这一天因为白天的工作太多,我草草的做了一下就上传了T.T,打算结营后再试一下~这个任务是识别《青春有你2》中的五个人,首先爬取大量的图片作为数据集,emmm我爬的比较少,大概只有270张左右。看到交流群里有大佬说可以用图像增强,我理解的大概就是裁剪一下,补个光这样的把,hub里面也有相应的例子,打算搞一下~这里用到Finetune模型的迁移。

Day5:大作业,真的好大。。。爬取了爱奇艺的很多评论,做了词云,用到porn_detection_lstm这个包,能够筛选出评论中的porn部分。遇到的问题1)、如何获取爱奇艺的评论接口,获得接口后拿到下一页评论的信息。这里的过程大概是:检查->Network->刷新页面,在Name一栏中会出现大量的信息,从输入框中输入comments,就可以得到Request URL,评论页面显示做的规则是:一点击加载更多评论,当前页面最后一个用户的id为下一页lastId的参数。2)、porn_detection_lstm的使用,经过porn_detection_lstm.detection方法后会输出原来所有评论的一个list,list中包含字典,字典中的key值用enumerate方法得到。

大概就是这些吧,这次课程是近期第一个有始有终完成的事情,也算给自己一点信心吧。

Ann_Rocky 原创文章 2获赞 0访问量 175 关注 私信
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: