python3.5 爬取bing搜索结果页面标题、链接
2016-09-17 18:59
316 查看
一个简单的爬虫小程序,可以抓取bing输入关键字后第一个页面的标题、链接。
运行结果截图:
import re,urllib.parse,urllib.request,urllib.error from bs4 import BeautifulSoup as BS baseUrl = 'http://cn.bing.com/search?' word = '鹿晗 吴亦凡 张艺兴' print(word) word = word.encode(encoding='utf-8', errors='strict') #print(word) data = {'q':word} data = urllib.parse.urlencode(data) #print(data) url = baseUrl+data print(url) try: html = urllib.request.urlopen(url) except urllib.error.HTTPError as e: print(e.code) except urllib.error.URLError as e: print(e.reason) soup = BS(html,"html.parser") td = soup.findAll("h2") count = soup.findAll(class_="sb_count") for c in count: print(c.get_text()) for t in td: print(t.get_text()) pattern = re.compile(r'href="([^"]*)"') h = re.search(pattern,str(t)) if h: for x in h.groups(): print(x)
运行结果截图:
相关文章推荐
- 用python和BeautifulSoup抓取百度搜索结果10-20页面中的网站链接
- C++和python如何获取百度搜索结果页面下信息对应的真实链接(百度搜索爬虫,可指定页数)
- sharepoint 2010 配置搜索页面的搜素结果链接使用新页面打开
- 爬取博客详细页面的标题(python3.5以上,async/await,aiohttp)
- Python实现抓取百度搜索结果页的网站标题信息
- C#抓取百度和谷歌的搜索结果(标题和链接) 代码整理
- 解决SharePoint文档库文件在搜索结果页面显示的标题和文档的标题不一致问题(search result)
- 解析百度搜索结果页面的python脚本(Linux/Win都可以运行)
- Python实现抓取百度搜索结果页的网站标题信息
- 在搜索结果出来之前页面显示“等待中...”的做法
- 百度测试新搜索结果页面 改进灵感来自谷歌?
- Google悄悄推行“链接 + 数据" 富内容摘要的搜索结果
- 修改MOSS搜索结果链接及搜索结果中返回的结果属性
- 百度搜索结果页面增加百度知道导入链接
- 在WSS搜索结果页面中高亮显示搜索关键字
- MOSS搜索结果页面自定义
- Google搜索结果页面出现重大问题 满屏尽是恶意网
- Google搜索结果页面出现重大问题 满屏尽是恶意网
- 把google搜索结果的缓存链接变成https的gs脚本
- SPS搜索结果中目标链接打开方式改为在新窗口中打开