Python爬虫小实践:使用BeautifulSoup+Request爬取CSDN博客的个人基本信息
2017-02-13 14:29
1096 查看
好久都没有动Python了,自从在网上买了《Python网络数据采集》这本书之后一直没有时间写自己的小的Demo,今天再网络上无意中看见
http://www.cnblogs.com/mfryf/p/3695844.html:
以下附上代码
以自己的博客作为实验例子。
代码只是实现了一些基本的功能,有待完善
http://www.cnblogs.com/mfryf/p/3695844.html:
开发记录_自学Python写爬虫程序爬取csdn个人博客信息
这篇博客,自己想要不花一个小时复习下BeutifulSoup,然后实现与上面的那个博客一模一样的功能,其实自己以前就想写这样的一个东西,像上面博主一样,也只是想每天看一下博客的访问量有没有上涨,哈哈哈哈哈。
然后自己就分析了下网站的源码,动手写了下BeautifulSoup+Request类型的,刚刚过完年,脑子不够使。随意写了一下,也重用了自己以前写的一些代码,然后删删改改。以下附上代码
#__author__ = 'Administrat #coding=utf-8 import io import os import sys import urllib from urllib.request import urlopen from urllib import request from bs4 import BeautifulSoup import re import requests sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030') headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0'} req=request.Request("http://blog.csdn.net/hw140701",headers=headers) html=urlopen(req) bsObj=BeautifulSoup(html.read(),"html.parser") Resultlist1=bsObj.find(id="blog_rank").findAll(name='li') Resultlist2=bsObj.find(id="blog_statistics").findAll(name='li') if None !=Resultlist1: for list1 in Resultlist1: print(list1.get_text()) if None !=Resultlist2: for list2 in Resultlist2: print(list2.get_text())以下是运行的结果
以自己的博客作为实验例子。
代码只是实现了一些基本的功能,有待完善
相关文章推荐
- 开发记录_自学Python写爬虫程序爬取csdn个人博客信息
- 开发记录_自学Python写爬虫程序爬取csdn个人博客信息
- windows下使用python的scrapy爬虫框架,爬取个人博客文章内容信息
- 02_使用WebMagic爬虫获取CSDN推荐专家的个人博客信息
- Python进阶(十八)-Python3爬虫小试牛刀之爬取CSDN博客个人信息
- [python爬虫] 正则表达式使用技巧及爬取个人博客实例
- Python爬虫小实践:爬取任意CSDN博客所有文章的文字内容(或可改写为保存其他的元素),间接增加博客访问量
- [Python下载CSDN博客]2. 使用BeautifulSoup分析HTML(一)
- Python爬虫小实践:爬取任意CSDN博客所有文章的文字内容(或可改写为保存其他的元素),间接增加博客访问量
- python爬虫由浅入深3--BeautifulSoup的使用的基本方法
- [Python下载CSDN博客]2. 使用BeautifulSoup分析HTML(二)
- [python爬虫] 正则表达式使用技巧及爬取个人博客实例
- python爬虫 正则表达式使用技巧及爬取个人博客的实例讲解
- Python3爬虫之二网页解析【爬取自己CSDN博客信息】
- 使用python的pyquery模块解析csdn个人博客的标题和描述
- Python爬虫小实践:爬取任意CSDN博客所有文章的文字内容(或可改写为保存其他的元素),间接增加博客访问量
- 【转载】使用theano进行深度学习实践(一) - CSDN博客
- python爬虫爬取csdn博客专家所有博客内容
- 在python3中使用urllib.request编写简单的网络爬虫
- [转载]Python爬虫入门三之Urllib库的基本使用