Python实现抓取CSDN博客首页文章列表
2016-08-23 15:58
911 查看
1、使用工具:
Python3.5
BeautifulSoup
2、抓取网站:
csdn首页文章列表 http://blog.csdn.net/
3、分析网站文章列表代码:
4、实现抓取代码:
5、执行结果:
Python3.5
BeautifulSoup
2、抓取网站:
csdn首页文章列表 http://blog.csdn.net/
3、分析网站文章列表代码:
4、实现抓取代码:
__author__ = 'Administrator' import urllib.request import re from bs4 import BeautifulSoup ######################################################## # # 抓取csdn首页文章http://blog.csdn.net/?&page=1 # # 参数baseUrl是要访问的网站地址 # ######################################################## class CsdnUtils(object): def __init__(self): user_agent='Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36' self.headers ={'Cache-Control':'max-age=0', 'Connection':'keep-alive', 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8', 'User-Agent':user_agent, } self.contentAll=set() def getPage(self,url=None): request=urllib.request.Request(url,headers=self.headers) response=urllib.request.urlopen(request) soup=BeautifulSoup(response.read(),"html.parser") #print(soup.prettify()) return soup def parsePage(self,url=None,page_num=None): soup=self.getPage(url) itemBlog=soup.find_all('dl','blog_list clearfix') cnArticle=CsdnUtils print("========================第",page_num,"页======================================") for i,itemSingle in enumerate(itemBlog): cnArticle.num=i cnArticle.author=itemSingle.find('a','nickname').string cnArticle.postTime=itemSingle.find('label').string cnArticle.articleView=itemSingle.find('em').string cnArticle.title=itemSingle.find('h3',"tracking-ad").string cnArticle.url=itemSingle.find("h3").find("a").get("href") print("数据:",cnArticle.num+1,'\t',cnArticle.author,'\t',cnArticle.postTime,'\t',cnArticle.articleView,'\t',cnArticle.title,'\t',cnArticle.url) ####### 执行 ######## if __name__ =="__main__": #要抓取的网页地址'http://blog.csdn.net/?&page={}'.format(i+1),i+1) url = "http://blog.csdn.net" cnblog=CsdnUtils() for i in range(0,2): cnblog.parsePage(url,i+1)
5、执行结果:
相关文章推荐
- Python实现抓取CSDN博客首页文章列表
- Python实现抓取CSDN热门文章列表
- Python实现抓取CSDN热门文章列表
- 从零开始,做一个NodeJS博客(二):实现首页-加载文章列表和详情
- 批量抓取csdn博客列表文章,简化后转为pdf保存
- [js高手之路]Node.js实现简易的爬虫-抓取博客所有文章列表信息
- python实例-通过cookie实现登录csdn获取自己微博的文章列表
- python爬虫之python2.7.8抓取csdn博客文章
- Python登录并获取CSDN博客所有文章列表代码实例
- php实现的简单的csdn博客文章抓取
- php实现的简单的csdn博客文章抓取(续:添加用户名搜索提示)
- 我的第一篇CSDN博客文章,Python代码实现矩阵翻转
- 【Android 我的博客APP】1.抓取博客首页文章列表内容——网页数据抓取
- Hello Python!用python写一个抓取CSDN博客文章的简单爬虫
- CSDN博客专栏文章批量下载脚本[python实现]
- Python抓取博客园首页文章列表(带分页)
- python抓取CSDN博客首页的所有博文,对标题分词存入mongodb中
- Python登录并获取CSDN博客所有文章列表
- 使用Jsoup 抓取本人CSDN博客文章列表的数据
- python抓取csdn博客文章信息