使用python爬取新浪微博的内容
2016-03-26 16:52
543 查看
爬取方式:
浏览某个人的微博内容时,通常我们需要登陆微博。在登录微博这一方面,我们使用一种简单的方式:抓取登录微博的cookie,然后使用cookie来登录微博。这样就可以浏览某个人的微博内容了。为了爬取方便,我们使用新浪微博的手机网页版
http://weibo.cn/
获取cookie:
① 我们使用的抓包工具是Fiddler,安装Fiddler后,我们来设置一下Winconfig,在IE那项上打勾:然后 SaveChange 即可。
② 先登录进入微博。(有手机网页版可能登录不进去,一直提示验证码错误,这时你可以打开新浪微博的电脑网页版登录即可)。
③ 打开Fiddler,然后用IE浏览器打开http://weibo.cn/,发现是直接登陆进去了,这是因为cookie的原因。这时我们通过Fiddler来找cookie的内容
首先在Fddler左栏找到 weibo.cn 那项,双击。
然后在右边使用composer可以看到一些信息。
而Cookie那项信息就是我们所需的。我们把”_T_W…”复制下来。
使用python抓包
这里就直接上代码看。
-
# -*- coding: utf-8 -*- import requests from bs4 import BeautifulSoup import time cook = {"Cookie":" _T_WM....."} #放入你的cookie信息。 for i in range(1,20): #爬取"头条新闻"的前二十页微博 url = "http://weibo.cn/breakingnews?page=%d"%(i) html = requests.get(url,cookies=cook).content #使用Beautiful来解析网页内容。 soup =BeautifulSoup(html,"html.parser") r = soup.findAll('span',attrs={"class" : "ctt"}) for e in r: print(e.text) #设置时间间隔 time.sleep(3)
–
这样我们就可以爬到头条新闻的微博内容了,当然这里我只爬取了文本信息。
项目地址: github
相关文章推荐
- Python中的sorted函数以及operator.itemgetter函数
- python del()用法
- 47. Permutations II
- Selenium+Python批量下载图
- Caffe Python MemoryDataLayer Segmentation Fault
- python-numpy-00
- Python 编程核心 - Chapter9练习
- 朴素贝叶斯算法(Naive Bayes)算法的python实现 含源代码
- python2.7;解决中文无法正常显示问题
- 安装pygraphviz遇到的问题解决办法。
- python面试题
- 动手写一个Python Web 框架学习笔记 - 相关依赖学习(2)
- python--基础学习(六)sqlite数据库基本操作
- Python学习:异步IO:协程和asyncio
- Pyhton: abs() 函数
- Python_模拟登陆新浪微博
- ubuntu下升级python
- Windows下IPython的配置安装
- Python在线笔试琐碎
- python 输出冒号;引号嵌套问题