您的位置：首页 > 编程语言 > Python开发

Python爬虫笔记（2）根据目标信息解析数据和存储目标信息

2018-03-27 18:24 731 查看

视频地址：

http://study.163.com/course/courseLearn.htm?courseId=1004832029#/learn/video?lessonId=1050367257&courseId=1004832029

1.HTML文件的结构

html文档由html元素组成，html元素包括：标签、属性、内容。标签包括起始标签和结束标签。html元素可以嵌套，如最外层的元素即由和所定义，次外层通常为head和body。只有在body部分定义的内容才在浏览器中是可见的。在浏览器通常可以用查看源代码的方式看到网页对应的html文件内容。

2.利用、BeatifulSoup解析html

'根据目标信息解析html文档'
import requests
from bs4 import BeautifulSoup#将字符串转换为Python对象
url = 'http://www.runoob.com/html/html-tutorial.html'
r= requests.get(url)
html=r.text.encode(r.encoding).decode()
soup =BeautifulSoup(html,'lxml')#html放到beatifulsoup对象中

html#字符串
soup #对象，对象是有属性的
soup.head
soup.body
soup.body.h1#主标题
soup.findAll('h2')#查找所以次标题

存储目标信息：一般把爬取数据存在Excel表格，csv,txt文件或数据库中

'存储目标信息'
import requests
from bs4 import BeautifulSoup#将字符串转换为Python对象
import pandas as pd
url = 'http://www.runoob.com/html/html-tutorial.html'
r= requests.get(url)
html=r.text.encode(r.encoding).decode()
soup =BeautifulSoup(html,'lxml')#html放到beatifulsoup对象中
l=[x.text for x in soup.findAll('h2')]#提取次标题中所有的文字
df = pd.DataFrame(l,columns =[url])#将l变为DataFrame文件，列名为URL
df.to_excel('爬虫.xlsm')#写入表格中
df.to_csv('爬虫.csv')
df.iloc[2,0]

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航