获取隐藏了部分内容的网页源代码,审查元素可以,查看源代码不行。在学习python爬虫
2019-05-14 13:45
6166 查看
版权声明:转载请注明出处! https://blog.csdn.net/qq_38270802/article/details/90204609
获取隐藏了部分内容的网页源代码,审查元素可以,查看源代码不行。在学习python爬虫。
故事背景:最近一个朋友想批量下载“巨潮资讯网”上有关“股票质押的”的PDF,拜托我之后,我想用python写一个爬虫工具。
原网页如下: (鼠标右击,打开连接,不能直接点击,点击就是个下载项)
http://www.cninfo.com.cn/new/fulltextSearch?keyWord=股票质押
构想:按照以前爬“小姐姐和老师们”的入门经验,获取网页源代码,匹配出下载链接,再下载就ok。 好!查看网页源代码:
哦豁!放置 公告 的 网页代码看不到,但是审查元素的时候是存在的:
去研究了一下,怎么获得隐藏的网页代码,网上都说什么F12抓包,抓包。。。 懵逼,我是一个小白啊,能不能来个手把手教学的? 看到两个有用的网页:
https://zhidao.baidu.com/question/1178494981402265499.html
https://www.qqjike.com/qqjishu/2018/0124/5500.html
我回到“巨潮资讯网”,审查元素 ——> Network ——> XHR ——> F5 reload,看到这几个东西:
点击这个full?searchxxxxxxxxxx:
公告栏是在进入这个网页后,请求了另一个url:
Request URL: http://www.cninfo.com.cn/new/fulltextSearch/full?searchkey=股票质押&sdate=&edate=&isfulltext=false&sortName=nothing&sortType=desc&pageNum=1
打开它(鼠标右击,打开连接,不能直接点击,点击就是个下载项),得到了返回数据,就是想要的 公告 的数据:
用python urllib request这个页面之后的事,就不在赘述。
这个网页先呈现出一个界面,核心内容的 公告 是异步加载的, 还算简单,request请求数据也不需要表单提交,也没用到什么json数据包。 如果以后再爬什么高级的网页,还需进一步学习。
小白第一次发博客,轻喷。
相关文章推荐
- 如何在react中控制option的显示条数,大于5条即隐藏大于5的部分,点击某个按钮(查看更多)可以将隐藏的内容显示,再次点击即恢复隐藏
- Python3学习(34)--简单网页内容抓取(爬虫入门一)
- 【python写爬虫】HTML网页学习和Xpath网络元素定位
- Python 网络爬虫 009 (编程) 通过正则表达式来获取一个网页中的所有的URL链接,并下载这些URL链接的源代码
- 萌新的Python学习日记 - 爬虫无影 - 使用BeautifulSoup + css selector 抓取自己想要网页内容
- Python 网络爬虫 009 (编程) 通过正则表达式来获取一个网页中的所有的URL链接,并下载这些URL链接的源代码
- 萌新的Python学习日记 - 爬虫无影 - 添加headers抓取动态网页内容:TripAdvisor(上)
- [笔记]python爬虫学习笔记(一)——网页的获取和打印
- Python爬虫第一步之获取网页源代码
- python-获取提取网页url爬虫学习(1)
- python3爬虫1--简单网页源代码获取
- python--爬虫--获取和解析存储网页内容--以薄荷网为例
- webBroswer自动提交表单 webBroser过滤某些标签元素 webBroswer截取网页部分内容 webBroswer 获取 iframe里的元素
- 爬虫学习之第一次获取网页内容及BeautifulSoup处理
- python爬虫获取网页内容
- 萌新的Python学习日记 - 爬虫无影 - 使用BeautifulSoup + css selector 抓取动态网页内容:Knewone
- Python爬虫学习——获取网页
- 对着网页进行右键操作------审查元素(快速查看标签代码)
- [SoapUI]怎样获取隐藏元素的文本内容Get text of hidden element
- (2)获取网页源代码——Python