您的位置：首页 > 理论基础 > 计算机网络

python爬虫（1）利用BeautifulSoup进行网络数据采集

2018-03-01 23:03 776 查看

BeautifulSoup库的名字来源于路易斯.卡罗尔在《爱丽丝梦游仙境》里的同名诗歌，BeautifulSoup化平淡为神奇，它通过定位HTML标签来格式化和组织复杂的网络信息，用简单易用的Python对象为我们展现结构信息。
在我们安装完Anaconda之后就自带BS4了

首先，我们利用BeautifulSoup来得到百度的标题：

from urllib.request import urlopen
from bs4 import BeautifulSoup

html = urlopen("http://www.baidu.com")
Bs_html = BeautifulSoup(html)
print(Bs_html.title)

输出结果为：

我们先用了一下这个神奇的函数，但是它的真正强大之处还远不止于此

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

数据可视化三步走（一）：数据采集与存储，利用python爬虫框架scrapy爬取网络数据并存储
python网络数据采集学习范例—利用CSS爬取网站特定标签，BeautifulSoup函数介绍及子标签
[Python]网络数据采集概述(3)—穿越网页表单、登录窗口进行采集
python网络数据采集-穿越网页表单进行采集
Python网络数据采集1：初见网络爬虫
[python和大数据-1]利用爬虫登录知乎进行BFS搜索抓取用户信息本地mysql分析【PART1】
Python网络数据采集-创建爬虫
Python爬虫：用BeautifulSoup进行NBA数据爬取
Python网络数据采集13：用爬虫测试网站
Python网络数据采集——BeautifulSoup
Python网络数据采集9：穿越网页表单与登录窗口进行采集
[Python]利用Python进行网络爬虫
Python 爬虫（以赛马数据为例）之使用BeautifulSoup进行Html解析
Python爬虫：用BeautifulSoup进行NBA数据爬取
利用python网络爬虫爬取赶集网数据
用Python进行网络爬虫和数据分析的初次尝试（一）
利用Python进行数据分析（十）之数据规整化
python网络数据采集-Ajax和动态HTML
思维导图-利用Python进行数据分析
基于Python实现微信公众号爬虫进行数据分析

新的分享

【Java面试】TCP协议为什么要设计三次握手？
深度学习与CV教程(11) | 循环神经网络及视觉应用
又一起 BGP 劫持事件，影响全球 200 多家云服务和 CDN 提供商
深度学习与CV教程(7) | 神经网络训练技巧 (下)
网络协议之:haproxy的Proxy Protocol代理协议
Nginx实现https、重定向https
NLP教程(9) - 句法分析与树形递归神经网络
艾瑞咨询：2020年中国疫情时期网络长视频内容价值回顾及探索
每天一个 HTTP 状态码 206
每天一个 HTTP 状态码 205
每天一个 HTTP 状态码 204
每天一个 HTTP 状态码 203

章节导航