python3系列-爬虫解析
2017-11-30 15:08
103 查看
import urllib.request from bs4 import BeautifulSoup url="http://www.biquge5200.com/52_52542/" req = urllib.request.Request(url) response = urllib.request.urlopen(req) data = response.read() data=data.decode("gbk") soup=BeautifulSoup(data) soup=BeautifulSoup(str(soup.find(id='list'))) list=soup.find_all('a'); for l in range(9,len(list)): print(list[l].get('href'),list[l].text) url="http://www.biquge5200.com/52_52542/150290199.html" req = urllib.request.Request(url) response = urllib.request.urlopen(req) data = response.read() data=data.decode("gbk") soup=BeautifulSoup(data) soup=BeautifulSoup(str(soup.find(id='content'))) print(soup)
import urllib.request from bs4 import BeautifulSoup # for u in range(1,1830): for u in range(0,1830): print(u) url="http://xiaohua.zol.com.cn/new/"+str(u)+".html" req = urllib.request.Request(url) response = urllib.request.urlopen(req) data = response.read() data=data.decode("gbk") soup=BeautifulSoup(data) soup=BeautifulSoup(str(soup.find(attrs={'class':'article-list'}))).find_all(attrs={'class':'article-summary'}) for i in soup: u="http://xiaohua.zol.com.cn"+i.find(attrs={'class':'article-title'}).find_all('a')[0].get('href') req = urllib.request.Request(u) response = urllib.request.urlopen(req) data = response.read() data = data.decode("gbk") cls = BeautifulSoup(data).find(attrs={'class':'wrapper location clearfix'}).find_all("a")[3].text title=BeautifulSoup(data).find(attrs={'class':'article-title'}).text content=BeautifulSoup(data).find(attrs={'class':'article-text'}).text fcontent=cls+"|||"+title+"|||"+content+"\n" # print(fcontent) with open("c:/dz.txt", 'a') as file: file.writelines(fcontent.replace(u'\xa0', u' '))
相关文章推荐
- 《笨办法学 python3》系列练习计划——30.else 和 if
- Python3系列-运算符-3
- 【Y分钟内迅速学会python3系列】 python学习记录 (一)
- 最新2017年版利用Python3系列基础知识完成爬虫脚本带完整注释 - 基础爬虫(一)
- 《笨办法学 python3》系列练习计划——20.函数和文件
- 《笨办法学 python3》系列练习计划——32: 循环和列表
- 《笨办法学 python3》系列练习计划——34.访问列表的元素
- 《笨办法学 python3》系列练习计划——26.期中考试
- 《笨办法学 python3》系列练习计划——4. 变量和命名
- 《笨办法学 python3》系列练习计划——28.布尔表达式练习
- 《笨办法学 python3》系列练习计划——27.记住逻辑关系
- 《笨办法学 python3》系列练习计划——36.设计和调试
- 《笨办法学 python3》系列练习计划——37.复习各种符号
- python3系列:装饰器例子
- python3系列-爬虫解析
- 《笨办法学 python3》系列练习计划——0. 序言、目录
- 《笨办法学 python3》系列练习计划——29.如果 if
- 《笨办法学 python3》系列练习计划——11. 提问 input() 练习
- 《笨办法学 python3》系列练习计划——12.提示别人 input() 打印提示
- 《笨办法学 python3》系列练习计划——17.更多文件操作