您的位置:首页 > 理论基础 > 计算机网络

网络爬虫,python和数据分析学习--part3

2017-10-10 17:14 183 查看
# -- coding: utf-8 --

“””

Created on Tue Oct 10 10:59:56 2017

本段程序为科大王澎老师《网络爬虫,python和数据分析》中P15,针对spyder3做了微调

主要任务:解决了中文乱码问题

@author:

“””

import re

import urllib.request

import pymysql

from bs4 import BeautifulSoup

import time #延时用,如果不延时,可以不加

aaa = 3640

url1=’http://bbs.ustc.edu.cn/cgi/bbstdoc?board=PieBridge&start=

while aaa>0:

time.sleep(1)#延时,为的是环节被爬网站的压力

aaa=aaa-20#网站link有规律,每页递减20,利用该规律设置每次赋入的URL,爬完所有贴

aaa1=str(aaa)

url1=url1+aaa1

fp=urllib.request.urlopen(url1)

try:

s=fp.read().decode(‘gb2312’,’ignore’)#把gb2312改为网页编码

#下面修改网页内容s的编码设置

s=re.sub(‘charset=gb2312’,’charset=gb2312=utf-8’,s,re.I)

s=s.encode(‘utf-8’,’ignore’)

except:

s=fp.read()

soup=BeautifulSoup(s)

polist=soup.findAll(‘span’)

print (polist[0].contents[0])

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  python