您的位置：首页 > 其它

飞桨paddlepaddle课程7日打卡

2020-05-09 04:16 2356 查看

这是第一次在公开的地方写下一些学习后的心得，已经关注飞桨很长时间了，AI Studio平台经常会发布很多课程，可惜前期因为种种原因没有跟下去，这一次python小白逆袭大神课程（当然，我还是个小白）坚持下来了，但因为白天依然需要工作，所以每天做作业需要熬夜到凌晨，但也很开心因为这过程中学到很多东西。这次记录希望总结一下学习中遇到的问题，给自己以后做个提醒~

Day1：在第一天的作业中是关于乘法口诀的输出和特定名称文件的查找，由于之前有一些python的基础，所以输出口诀的任务不是特别困难，需要注意输出的格式，比如每一行的内容输出后会默认换行，这时候需要用到print中的 end=' '表示不换行。特定文件路径的问题是需要用到os.walk()方法的，for root,dirs,files in os.walk(path): path表示要搜索的文件路径，root表示该路径下包含的所有文件夹路径，files表示每个文件下的文件名。（文件和文件夹的区别）

Day2：爬取百度百科中《青春有你2》中所有参赛选手信息，这一天也是第一次接触到爬虫，大致了解了从发送请求的requests模块到解析数据的BeautifulSoup模块的使用方法。

Day3：通过前一天爬取的信息绘制柱状图和饼图，这里我需要提取选手的体重信息，按照不同的体重间隔进行分类再可视化出来。遇到的主要问题是1）、原始的每个体重数据都包含’kg‘，我需要去掉它，当时用了一种比较笨的方法，遍历了全部体重，数组切片后把前两位（如44kg）或前四位（如44.5kg）提取出来，然鹅，当天老师的启发下，我意识到可以从后往前切啊。。。用到[0:-2]

2）、在区分体重区间（[0,45,50,55,100]）的时候，我用的方法还是遍历+if判断，然鹅，可以有更简单的方法，用到了pandas里面的方法一个是pd.cut(array,bin），array是所有体重的数值，bin是区间。然后做出的图是下面的样子：

Day4：这一天因为白天的工作太多，我草草的做了一下就上传了T.T，打算结营后再试一下~这个任务是识别《青春有你2》中的五个人，首先爬取大量的图片作为数据集，emmm我爬的比较少，大概只有270张左右。看到交流群里有大佬说可以用图像增强，我理解的大概就是裁剪一下，补个光这样的把，hub里面也有相应的例子，打算搞一下~这里用到Finetune模型的迁移。

Day5：大作业，真的好大。。。爬取了爱奇艺的很多评论，做了词云，用到porn_detection_lstm这个包，能够筛选出评论中的porn部分。遇到的问题1）、如何获取爱奇艺的评论接口，获得接口后拿到下一页评论的信息。这里的过程大概是：检查->Network->刷新页面，在Name一栏中会出现大量的信息，从输入框中输入comments，就可以得到Request URL，评论页面显示做的规则是：一点击加载更多评论,当前页面最后一个用户的id为下一页lastId的参数。2）、porn_detection_lstm的使用，经过porn_detection_lstm.detection方法后会输出原来所有评论的一个list，list中包含字典，字典中的key值用enumerate方法得到。

大概就是这些吧，这次课程是近期第一个有始有终完成的事情，也算给自己一点信心吧。

Ann_Rocky

原创文章 2获赞 0访问量 175 关注私信

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航