简单的Python爬虫抓数据
2016-08-22 11:14
211 查看
说实话,大概两个月之前就打算整理一下近期掌握的知识、技能——C++的socket,sql server结合Dreamweaver以及godaddy的个人建站,stm32结合液晶显示,Multisim等的仿真……
一想起这么多东西就觉得头大,这次先把最近一两天写的一个简单的Python爬虫记录一下
承一位朋友之邀,要求统计一下伦敦、里约两届奥运会微博来源情况,是从网页上发微博的多还是用移动客户端的多呢?
对此,我考虑用Python通过正则表达式来实现。
首先在新浪微博上搜索伦敦奥运会,发现每条消息下面总会有
右键查看元素(顺便说一下,不管是写网页或者是爬虫哪怕是黑客等等跟网页有关的东西,都推荐装一下firfox随时查看代码什么的,非常方便)如下:
因此决定将pattern写为
通过
可以实现将页面内容读取为字符串。这样查找整个网页的字符串一一比对,即可找到有多少微博是发自“weibo.com”的。
具体实现代码如下:
写的有点简单粗暴,我相信有更好的写法,欢迎与我交流。
一想起这么多东西就觉得头大,这次先把最近一两天写的一个简单的Python爬虫记录一下
承一位朋友之邀,要求统计一下伦敦、里约两届奥运会微博来源情况,是从网页上发微博的多还是用移动客户端的多呢?
对此,我考虑用Python通过正则表达式来实现。
首先在新浪微博上搜索伦敦奥运会,发现每条消息下面总会有
右键查看元素(顺便说一下,不管是写网页或者是爬虫哪怕是黑客等等跟网页有关的东西,都推荐装一下firfox随时查看代码什么的,非常方便)如下:
<a target="_blank" href="http://app.weibo.com/t/feed/6vtZb0" rel="nofollow">微博 weibo.com</a>
因此决定将pattern写为
patternw = r'weibo.com'
通过
h = urllib.request.urlopen(url) return h.read()
可以实现将页面内容读取为字符串。这样查找整个网页的字符串一一比对,即可找到有多少微博是发自“weibo.com”的。
具体实现代码如下:
#coding=utf-8 #从新浪微博中抓取数据判断新浪客户端的使用情况 #只简单示意,找出了发自网页、iPhone和vivo的数量 #copyright@穆沛 #<a target="_blank" href="http://app.weibo.com/t/feed/6vtZb0" rel="nofollow">微博 weibo.com</a> #<a target="_blank" href="http://weibo.com/" rel="nofollow">晴小编iPhone 6s Plus</a> import urllib.request import re #将网页转为字符串 def downloadPage(url): h = urllib.request.urlopen(url) return h.read() def getData(content): content = content.decode('utf-8') i = 0 w = 0 e = 0 #来自微博网页的数量 patternw = r'weibo.com' web = re.compile(patternw) wurls = re.findall(web, content) for url in wurls: w += 1 print("w = %d"%w) #来自iPhone的数量 patterni = r'iPhone' iph = re.compile(patterni) iurls = re.findall(iph, content) for url in iurls: i += 1 print("i = %d"%i) #来自vivo的数量 patterne = r'vivo' oth = re.compile(patterne) eurls = re.findall(oth, content) for url in eurls: e += 1 print("e = %d"%e) content = downloadPage("http://s.weibo.com/weibo/%E4%BC%A6%E6%95%A6%E5%A5%A5%E8%BF%90%E4%BC%9A") getData(content)
写的有点简单粗暴,我相信有更好的写法,欢迎与我交流。
相关文章推荐
- 【Python】Python简单网络爬虫-爬取近几年的天气数据
- 实践项目十:爬取百度百科Python词条相关1000个页面数据(慕课简单爬虫实战)
- Python实现简单的爬虫获取某刀网的更新数据
- python爬虫webdriver.Chrome 数据可视化简单案例matplotlib
- Python爬虫简单实战:抓取小猪短租西安市前五页民房数据
- python爬虫提取数据之Beautifulsoup4简单使用
- Python爬虫(二)——urllib库,Post与Get数据传送区别,设置Headers,urlopen方法,简单爬虫
- Python 爬虫 正则抽取网页数据和Scrapy简单使用
- Python开发简单爬虫(二)---爬取百度百科页面数据
- Python简单爬虫——淘宝数据
- python爬虫提取数据之Beautifulsoup4简单使用
- (python爬虫项目)某婚恋网的简单数据爬取
- python爬虫爬取简单的动态数据-异步加载问题
- Python爬虫爬取京东内存条数据并作简单分析
- 【Python数据分析】简单爬虫,爬取知乎神回复
- python爬虫---post抓取查询数据简单说明
- 【Python数据分析】简单爬虫 爬取知乎神回复
- Python数据抓取(2) —简单网络爬虫的撰写
- python写简单爬虫的五种方法 (转)
- Python实现简单时间人流数据收集工具