用Python程序抓取网页的HTML信息的一个小实例
2015-05-02 00:00
866 查看
抓取网页数据的思路有好多种,一般有:直接代码请求http、模拟浏览器请求数据(通常需要登录验证)、控制浏览器实现数据抓取等。这篇不考虑复杂情况,放一个读取简单网页数据的小例子:
目标数据
将ittf网站上这个页面上所有这些选手的超链接保存下来。
数据请求
真的很喜欢符合人类思维的库,比如requests,如果是要直接拿网页文本,一句话搞定:
解析html获得数据
以beautifulsoup为例,包含获取标签、链接,以及根据html层次结构遍历等方法。参考见这里。下面这个片段,从ittf网站上获取指定页面上指定位置的链接。
目标数据
将ittf网站上这个页面上所有这些选手的超链接保存下来。
数据请求
真的很喜欢符合人类思维的库,比如requests,如果是要直接拿网页文本,一句话搞定:
doc = requests.get(url).text
解析html获得数据
以beautifulsoup为例,包含获取标签、链接,以及根据html层次结构遍历等方法。参考见这里。下面这个片段,从ittf网站上获取指定页面上指定位置的链接。
url = 'http://www.ittf.com/ittf_ranking/WR_Table_3_A2.asp?Age_category_1=&Age_category_2=&Age_category_3=&Age_category_4=&Age_category_5=&Category=100W&Cont=&Country=&Gender=W&Month1=4&Year1=2015&s_Player_Name=&Formv_WR_Table_3_Page='+str(page) doc = requests.get(url).text soup = BeautifulSoup(doc) atags = soup.find_all('a') rank_link_pre = 'http://www.ittf.com/ittf_ranking/' mlfile = open(linkfile,'a') for atag in atags: #print atag if atag!=None and atag.get('href') != None: if "WR_Table_3_A2_Details.asp" in atag['href']: link = rank_link_pre + atag['href'] links.append(link) mlfile.write(link+'\n') print 'fetch link: '+link mlfile.close()
相关文章推荐
- 用Python程序抓取网页的HTML信息的一个小实例
- 一个极其简洁的Python网页抓取程序,自动从雅虎财经抓取股票数据
- 一个简单的基于Jsoup的HTML信息抓取Java程序
- 我的第一个爬虫程序:利用Python抓取网页上的信息
- Python 抓取网页并提取信息(程序详解)
- 一个极其简洁的Python网页抓取程序,自己主动从雅虎財经抓取股票数据
- 一个简单的使用python抓取网页中的水文数据的程序
- Python实现一个简易的网页抓取程序
- python3.4学习笔记(十三) 网络爬虫实例代码,使用pyspider抓取多牛投资吧里面的文章信息,抓取政府网新闻内容
- 使用Python抓取网页信息
- 通过HtmlAgilityPack实现网页信息抓取
- lmth1 一个用Python编写的便捷网页信息提取工具 - _Luc_ - 博客园
- C#程序抓取网页源码实例(winform程序)
- C#程序抓取网页实例
- python抓取网页的一个小例子
- 【实例】python 使用beautifulSoup 抓取网页正文 以淘宝商品价格为例
- Python写爬虫——抓取网页并解析HTML(修订篇)
- Python 网页解析HTMLParse的实例详解
- C#实现通过程序自动抓取远程Web网页信息