python用字符串操作20行代码简单爬虫入门+案例(爬取一章《三体》小说)
2017-09-06 09:16
836 查看
三体是一部超级优秀的科幻小说
所需要的简单的方法
1、#导入专用包
import urllib.request
2、try…except..
try: 语句1.... except Exception as e: 语句2... 尝试执行语句1,执行不成功就执行语句2
3、urlopen获取内容
response =urllib.request.urlopen(webList) #获取webList页面的内容
4、read()读取
response.read() #读取获取的内容
5、decode解码
decode('UTF-8') #用utf-8的方式解码
6、替换方法
html = html.expandtabs() #html内容替换所有的制表符为空 html =html.replace(' ','') #替换掉所有的空格
7、获取长度
lenth = len(html) #获取文档的长度
8、find()查找方法
lenth = len(html) #获取文档的长度
9、字符串的截取
html[0:index2] #对整篇字符串进行截取
10、写入 open..write
writeFile =open('三体.txt','w') writeFile.write(htm) #写入文件
案例爬取一章《三体》小说
#导入专用包
import urllib.request
#需要连接的页面
webList ='http://www.51shucheng.net/kehuan/santi/santi1/174.html'
#用try尝试去连接
try:
response =urllib.request.urlopen(webList)
#如果能成功连接,并获取内容,response就是我们所获取的那个页面
except Exception as e:
print('获取失败')
#否则就打印出‘获取失败’
html = str(response.read().decode('UTF-8'))
# 把获取的内容读取出来,并且用UTF-8解码
html = html.expandtabs()
#替换掉所有的TAB符号
html =html.replace(' ','')
#替换掉所有的空格
print(html)
#可以打印出来预览一下,方便进行定位
lenth = len(html) #获取文档的长度
html = html[html.find('neirong">',0,lenth)+9:]
index =html.find('跟鞋。</p>',0)+3
index2 = html.find('眷恋着天空。</p>')
index3 =html.find('<p>“红色联合”的战士们欢呼起来')
#找到一些关键位置,获取索引,方便下边进行定位
htm =str(html[0:index2]+html[index3:index])
#对整篇字符串进行截取
htm = htm.replace('<p>',' ')
htm = htm.replace('</p>','\n')
#把文中的<p></p>替换掉
writeFile =open('三体.txt','w') writeFile.write(htm) #写入文件
print('写入完成')
相关文章推荐
- Python采集案例:Python实现爬取知乎神回复简单爬虫代码
- python用BeautifulSoup库简单爬虫入门+案例(爬取妹子图)
- python正则表达式简单爬虫入门+案例(爬取猫眼电影TOP榜)
- Python入门简单的静态网页爬虫3.0 (爬虫的示例代码)
- python3简单爬虫实现代码
- python字符串格式化输出及相关操作代码举例
- Python爬虫入门案例:获取百词斩已学单词列表
- Python字符串操作和string模块代码分析
- Python实现爬取知乎神回复简单爬虫代码分享
- Python爬虫入门笔记:一个简单的爬虫架构
- Python入门简单的静态网页爬虫2.0 (实现各模块的具体方法)
- python基础入门之简单爬虫编写
- Delphi入门4--自己写代码连接资料库,对数据进行简单操作,还是简单的入门
- Python实现爬取知乎神回复简单爬虫代码分享
- Python入门简单的静态网页爬虫
- Python爬虫入门案例:获取百词斩已学单词列表
- Python字符串操作和string模块代码分析
- python爬虫入门教程之点点美女图片爬虫代码分享
- Python 爬虫入门(四)—— 验证码下篇(破解简单的验证码)
- Python练习代码 -- 字符串和正则表达式, 文件文件夹操作