python写简单爬虫的五种方法 (转)
2013-05-20 19:32
351 查看
原文地址链接: http://blog.sina.com.cn/s/blog_5e32cc130100fszx.html
2, 【用Python写爬虫】获取html的方法【二】:使用pycurl
# Pycurl参考地址:http://pycurl.sourceforge.net/
# Pycurl下载地址:http://pycurl.sourceforge.net/download/pycurl-7.18.1.tar.gz
3,【用Python写爬虫】获取html的方法【三】:使用cPAMIE
# cPAMIE下载:http://sourceforge.net/project/showfiles.php?group_id=103662
2, 【用Python写爬虫】获取html的方法【二】:使用pycurl
# Pycurl参考地址:http://pycurl.sourceforge.net/
# Pycurl下载地址:http://pycurl.sourceforge.net/download/pycurl-7.18.1.tar.gz
#!/usr/bin/python #coding:utf8 import pycurl import StringIO def getURLContent_pycurl(url): c=pycurl.Curl() c.setopt(pycurl.URL,url) b=StringIO.StringIO() c.setopt(pycurl.WRITEFUNCTION,b.write) c.setopt(pycurl.FOLLOWLOCATION,1) c.setopt(pycurl.MAXREDIRS,5) c.perform() return b.getvalue() url='http://www.baidu.com' content = getURLContent_pycurl(url) print content
3,【用Python写爬虫】获取html的方法【三】:使用cPAMIE
# cPAMIE下载:http://sourceforge.net/project/showfiles.php?group_id=103662
1 #!/usr/bin/python 2 #coding:utf8 3 4 import cPAMIE 5 6 def getURLContent_cPAMIE(url): 7 g_ie = cPAMIE.PAMIE() 8 g_ie = showDebugging = False 9 g_ie.frameName = None 10 g_ie.navigate(url) 11 12 content = g_ie.pageGetText() 13 g_ie.quit() 14 return content 15 16 url = 'http://www.baidu.com' 17 18 content = getURLContent_cPAMIE(url) 19 20 print content
相关文章推荐
- python写简单爬虫的五种方法
- python写简单爬虫的五种方法 (转)
- Python 用Redis简单实现分布式爬虫的方法
- Python入门简单的静态网页爬虫2.0 (实现各模块的具体方法)
- Python爬虫----基础知识(简单爬虫架构、URL管理器和实现方法)
- python爬虫(3)五种方法通过黑板客第一关
- Python爬虫实战(十一):两种简单的方法爬取动态网页
- Python爬虫简单常用方法
- python3 request 爬虫 httplib.IncompleteRead() 问题的简单解决方法
- Python 简单爬虫程序 以及 urllib.urlretrieve()方法 改变文件存放文件位置
- Python爬虫(二)——urllib库,Post与Get数据传送区别,设置Headers,urlopen方法,简单爬虫
- Python爬虫----基础知识(简单爬虫架构、URL管理器和实现方法)
- [记录]Python爬虫过程中遇到的简单带干扰线验证码处理方法
- python基础入门之简单爬虫编写
- 简单python 爬虫
- Python 3.0最简单的爬虫
- Python简单爬虫记录
- Python 单例模式简单创建的方法
- python简单爬虫笔记
- python一个简单的小爬虫