Python爬虫笔记(2)根据目标信息解析数据和存储目标信息
2018-03-27 18:24
731 查看
视频地址:
http://study.163.com/course/courseLearn.htm?courseId=1004832029#/learn/video?lessonId=1050367257&courseId=1004832029
1.HTML文件的结构
html文档由html元素组成,html元素包括:标签、属性、内容。标签包括起始标签和结束标签。html元素可以嵌套,如最外层的元素即由和所定义,次外层通常为head和body。只有在body部分定义的内容才在浏览器中是可见的。在浏览器通常可以用查看源代码的方式看到网页对应的html文件内容。
2.利用、BeatifulSoup解析html
存储目标信息:一般把爬取数据存在Excel表格,csv,txt文件或数据库中
http://study.163.com/course/courseLearn.htm?courseId=1004832029#/learn/video?lessonId=1050367257&courseId=1004832029
1.HTML文件的结构
html文档由html元素组成,html元素包括:标签、属性、内容。标签包括起始标签和结束标签。html元素可以嵌套,如最外层的元素即由和所定义,次外层通常为head和body。只有在body部分定义的内容才在浏览器中是可见的。在浏览器通常可以用查看源代码的方式看到网页对应的html文件内容。
2.利用、BeatifulSoup解析html
'根据目标信息解析html文档' import requests from bs4 import BeautifulSoup#将字符串转换为Python对象 url = 'http://www.runoob.com/html/html-tutorial.html' r= requests.get(url) html=r.text.encode(r.encoding).decode() soup =BeautifulSoup(html,'lxml')#html放到beatifulsoup对象中
html#字符串 soup #对象,对象是有属性的 soup.head soup.body soup.body.h1#主标题 soup.findAll('h2')#查找所以次标题
存储目标信息:一般把爬取数据存在Excel表格,csv,txt文件或数据库中
'存储目标信息' import requests from bs4 import BeautifulSoup#将字符串转换为Python对象 import pandas as pd url = 'http://www.runoob.com/html/html-tutorial.html' r= requests.get(url) html=r.text.encode(r.encoding).decode() soup =BeautifulSoup(html,'lxml')#html放到beatifulsoup对象中 l=[x.text for x in soup.findAll('h2')]#提取次标题中所有的文字 df = pd.DataFrame(l,columns =[url])#将l变为DataFrame文件,列名为URL df.to_excel('爬虫.xlsm')#写入表格中 df.to_csv('爬虫.csv') df.iloc[2,0]
相关文章推荐
- 基于百度API接口的python数据爬虫解析1【笔记】
- 操作 Python爬虫数据存储MySQL【3】爬取信息
- python爬虫:使用Mongodb数据库存储数据学习笔记
- android菜鸟学习笔记19----Android数据存储(三)XML文件的解析及序列化
- Python数据爬虫,爬链家的二手房信息
- Python高级爬虫(三):数据存储以及多线程
- python-2-1 如何在列表, 字典, 集合中根据条件筛选数据-列表解析-filter
- Android笔记(四十六) Android中的数据存储——XML(二)PULL解析
- python3.4学习笔记(十三) 网络爬虫实例代码,使用pyspider抓取多牛投资吧里面的文章信息,抓取政府网新闻内容
- Python之爬虫和数据小解析
- python 宝典 笔记 第十二章 存储数据和对象 (各种对象转换成字符串)
- python笔记 - 数据类型以及类型信息的获取
- 修改ODI接口中的目标存储数据模型信息
- [python爬虫] 招聘信息定时系统 (一).BeautifulSoup爬取信息并存储MySQL
- python爬虫笔记<一:POST和GET数据传送>
- Android入门学习笔记(一)|基础知识|文件数据存储读取|解析XML
- 【极客学院】-python学习笔记-4-单线程爬虫 (提交表单抓取信息,实战练习)
- Python爬虫之实习僧招聘信息及数据分析
- python3.4学习笔记(十四) 网络爬虫实例代码,抓取新浪爱彩双色球开奖数据实例