您的位置:首页 > 编程语言 > Python开发

Python爬虫笔记(2)根据目标信息解析数据和存储目标信息

2018-03-27 18:24 731 查看
视频地址:

http://study.163.com/course/courseLearn.htm?courseId=1004832029#/learn/video?lessonId=1050367257&courseId=1004832029

1.HTML文件的结构

html文档由html元素组成,html元素包括:标签、属性、内容。标签包括起始标签和结束标签。html元素可以嵌套,如最外层的元素即由和所定义,次外层通常为head和body。只有在body部分定义的内容才在浏览器中是可见的。在浏览器通常可以用查看源代码的方式看到网页对应的html文件内容。

2.利用、BeatifulSoup解析html

'根据目标信息解析html文档'
import requests
from bs4 import BeautifulSoup#将字符串转换为Python对象
url = 'http://www.runoob.com/html/html-tutorial.html'
r= requests.get(url)
html=r.text.encode(r.encoding).decode()
soup =BeautifulSoup(html,'lxml')#html放到beatifulsoup对象中


html#字符串
soup #对象,对象是有属性的
soup.head
soup.body
soup.body.h1#主标题
soup.findAll('h2')#查找所以次标题


存储目标信息:一般把爬取数据存在Excel表格,csv,txt文件或数据库中

'存储目标信息'
import requests
from bs4 import BeautifulSoup#将字符串转换为Python对象
import pandas as pd
url = 'http://www.runoob.com/html/html-tutorial.html'
r= requests.get(url)
html=r.text.encode(r.encoding).decode()
soup =BeautifulSoup(html,'lxml')#html放到beatifulsoup对象中
l=[x.text for x in soup.findAll('h2')]#提取次标题中所有的文字
df = pd.DataFrame(l,columns =[url])#将l变为DataFrame文件,列名为URL
df.to_excel('爬虫.xlsm')#写入表格中
df.to_csv('爬虫.csv')
df.iloc[2,0]
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: