您的位置：首页 > 理论基础 > 计算机网络

网络爬虫，python和数据分析学习--part3

2017-10-10 17:14 183 查看

# -- coding: utf-8 --

“””

Created on Tue Oct 10 10:59:56 2017

本段程序为科大王澎老师《网络爬虫，python和数据分析》中P15，针对spyder3做了微调

主要任务：解决了中文乱码问题

@author:

“””

import re

import urllib.request

import pymysql

from bs4 import BeautifulSoup

import time #延时用，如果不延时，可以不加

aaa = 3640

url1=’http://bbs.ustc.edu.cn/cgi/bbstdoc?board=PieBridge&start=’

while aaa>0:

time.sleep(1)#延时，为的是环节被爬网站的压力

aaa=aaa-20#网站link有规律，每页递减20，利用该规律设置每次赋入的URL，爬完所有贴

aaa1=str(aaa)

url1=url1+aaa1

fp=urllib.request.urlopen(url1)

try:

s=fp.read().decode(‘gb2312’,’ignore’)#把gb2312改为网页编码

#下面修改网页内容s的编码设置

s=re.sub(‘charset=gb2312’,’charset=gb2312=utf-8’,s,re.I)

s=s.encode(‘utf-8’,’ignore’)

except:

s=fp.read()

soup=BeautifulSoup(s)

polist=soup.findAll(‘span’)

print (polist[0].contents[0])

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： python

相关文章推荐

新的分享

章节导航