Python 实现网络爬虫 抓取静态网页【代码】
2015-02-20 19:33
921 查看
#---------------------------------import--------------------------------------- #coding:utf-8 import urllib2; from BeautifulSoup import BeautifulSoup; #------------------------------------------------------------------------------ def main(): #抓 userMainUrl = "http://tieba.baidu.com/home/main?id=38b94c4ed8add8bcccabd7d31b22&fr=userbar"; #修改抓取的链接地址 req = urllib2.Request(userMainUrl); resp = urllib2.urlopen(req); respHtml = resp.read(); print "respHtml=",respHtml; #此处输出所有抓取到的HTML源码 #取 songtasteHtmlEncoding = "GBK";#修改编码<span><span class="attribute-name">charset的格式</span></span> soup = BeautifulSoup(respHtml, fromEncoding=songtasteHtmlEncoding); foundClassH1user = soup.find(attrs={"target":"_blank"});#修改抓取内容 print "foundClassH1user=%s",foundClassH1user; if(foundClassH1user): h1userStr = foundClassH1user.string; print "h1userStr=",h1userStr; ############################################################################### if __name__=="__main__": main();
抓取1类标签
#eg:siteUrls=soup.findAll('a')
抓取2类标签
#eg:foundClassH1user = soup.find(attrs={"target":"_blank"});
抓取2类标签
#foundClassH1user = soup.find(attrs={"class":"h1user"});
相关文章推荐
- python3实现网络爬虫(1)--urlopen抓取网页的html
- python3实现网络爬虫(5)--模拟浏览器抓取网页
- python3实现网络爬虫(7)-- 使用ip代理抓取网页
- 如何用Python,C#等语言去实现抓取静态网页+抓取动态网页+模拟登陆网站
- 基于C#实现网络爬虫 C#抓取网页Html源码
- 多线程获取豆瓣网页的网络爬虫(Python实现)
- 爬虫技术(2)--抓取网页java代码实现
- python网络爬虫——基本概念及代码实现1
- 简单的java爬虫抓取网页实现代码(未测试)
- Python天气预报采集器实现代码(网页爬虫)
- [Python]网络爬虫1:抓取网页的含义和URL基本构成 笔记
- Python 网络爬虫5 ---- 第一次实现抓取数据并且存放到mysql数据库中
- Python入门简单的静态网页爬虫2.0 (实现各模块的具体方法)
- Python实现简单网页图片抓取完整代码实例
- c#关于网页内容抓取,简单爬虫的实现。(包括动态,静态的)
- Python爬虫实现抓取网页图片
- 如何用Python去实现抓取静态网页+抓取动态网页+模拟登陆网站
- c#关于网页内容抓取,简单爬虫的实现。(包括动态,静态的)
- Python爬虫实现网页信息抓取功能示例【URL与正则模块】
- 抓取国家统计局区划、城乡划分代码的简易python爬虫实现