您的位置：首页 > 编程语言 > Python开发

获取隐藏了部分内容的网页源代码，审查元素可以，查看源代码不行。在学习python爬虫

2019-05-14 13:45 6166 查看

获取隐藏了部分内容的网页源代码，审查元素可以，查看源代码不行。在学习python爬虫。

故事背景：最近一个朋友想批量下载“巨潮资讯网”上有关“股票质押的”的PDF，拜托我之后，我想用python写一个爬虫工具。

原网页如下： (鼠标右击，打开连接，不能直接点击，点击就是个下载项)
http://www.cninfo.com.cn/new/fulltextSearch?keyWord=股票质押

构想：按照以前爬“小姐姐和老师们”的入门经验，获取网页源代码，匹配出下载链接，再下载就ok。

好！查看网页源代码：

哦豁！放置 公告 的 网页代码看不到，但是审查元素的时候是存在的：

去研究了一下，怎么获得隐藏的网页代码，网上都说什么F12抓包，抓包。。。
懵逼，我是一个小白啊，能不能来个手把手教学的？ 看到两个有用的网页：

我回到“巨潮资讯网”，审查元素 ——> Network ——> XHR ——> F5 reload，看到这几个东西：

点击这个full?searchxxxxxxxxxx：

公告栏是在进入这个网页后，请求了另一个url：

Request URL: http://www.cninfo.com.cn/new/fulltextSearch/full?searchkey=股票质押&sdate=&edate=&isfulltext=false&sortName=nothing&sortType=desc&pageNum=1
打开它(鼠标右击，打开连接，不能直接点击，点击就是个下载项)，得到了返回数据，就是想要的公告的数据：

用python urllib request这个页面之后的事，就不在赘述。

这个网页先呈现出一个界面，核心内容的 公告 是异步加载的，
还算简单，request请求数据也不需要表单提交，也没用到什么json数据包。
如果以后再爬什么高级的网页，还需进一步学习。

小白第一次发博客，轻喷。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航