【爬虫】爬取百度搜索结果页面
2015-05-22 21:10
363 查看
今日看了一下爬虫,写了一个爬取百度搜索页面的小程序。可以在代码中改动搜索词,代码如下:
https://github.com/sharpdeep/CrawlerBaidu
#coding=utf-8 #python version:2.7 #author:sharpdeep import urllib import urllib2 import re from bs4 import BeautifulSoup as BS baseUrl = 'http://www.baidu.com/s' page = 1 #第几页 word = '穿戴设备' #搜索关键词 data = {'wd':word,'pn':str(page-1)+'0','tn':'baidurt','ie':'utf-8','bsst':'1'} data = urllib.urlencode(data) url = baseUrl+'?'+data try: request = urllib2.Request(url) response = urllib2.urlopen(request) except urllib2.HttpError,e: print e.code exit(0) except urllib2.URLError,e: print e.reason exit(0) html = response.read() soup = BS(html) td = soup.find_all(class_='f') for t in td: print t.h3.a.get_text() print t.h3.a['href'] font_str = t.find_all('font',attrs={'size':'-1'})[0].get_text() start = 0 #起始 realtime = t.find_all('div',attrs={'class':'realtime'}) if realtime: realtime_str = realtime[0].get_text() start = len(realtime_str) print realtime_str end = font_str.find('...') print font_str[start:end+3],'\n'
https://github.com/sharpdeep/CrawlerBaidu
相关文章推荐
- C++和python如何获取百度搜索结果页面下信息对应的真实链接(百度搜索爬虫,可指定页数)
- 百度搜索-爬虫保存结果
- 百度搜索结果页面的参数 关键词(wd|word|kw|keyword)
- 百度搜索结果页面的参数_输入耗时(inputT)
- 百度搜索结果页面的参数 形式(f)
- 用python和BeautifulSoup抓取百度搜索结果10-20页面中的网站链接
- 百度测试新搜索结果页面 改进灵感来自谷歌?
- 百度搜索结果页面的参数 相关搜索_语义关联性(rs_src)
- 百度搜索结果爬虫
- 百度搜索结果页面增加百度知道导入链接
- 百度搜索结果页面的参数 相关提示位置(rsp)
- 百度搜索结果页面的参数_反馈搜索结果用时(rsv_sug4)
- PHP抓取百度搜索结果页面的【相关搜索词】并存储
- 爬取百度搜索结果的爬虫
- 百度搜索结果页面的参数 首页类型(rsv_spt)
- 百度搜索结果页面的参数 原先查询字符串(oq)
- 百度搜索结果页面的参数 提示词输入搜索框方式(rsv_sug5)
- 浏览器点击百度搜索结果之后,原搜索页面出现重定向乱码不断刷新问题的分析和解决
- Python爬虫爬取百度搜索结果——邮箱地址
- 【百度爬虫系列 II】关键字搜索url结果汇总(给定关键字和页数)