网络爬虫之Beautifulsoup入门(一)
2016-12-16 14:09
197 查看
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库,目前多使用它做网络爬虫,官网看这里:
https://www.crummy.com/software/BeautifulSoup/
在使用之前,我们需要下载安装,可以使用官网给出的地址如下:
https://www.crummy.com/software/BeautifulSoup/#Download
或从其他地址下载均可,如:
https://pypi.python.org/pypi/beautifulsoup4/4.3.2
其介绍及使用方法在官网上有官方文档(纯英)介绍,链接如下:
https://www.crummy.com/software/BeautifulSoup/bs4/doc/
如果英语不好可以搜索阅读一些翻译好的文档,其安装步骤在官方文档上有详细的介绍,windows下可以通过命令行pip安装到python目录下;
pip install beautifulsoup4
或经上面的链接下载好安装包,解压打开之后通过setup.py安装
Python setup.py install
当然,在这之前,你需要安装好python。是否安装成功?我们可以测试一下,打开python command的窗口输入:
import bs4
from bs4 import BeautifulSoup
如果没有任何提示,则包引入成功,若提示“Python ImportError: No module named BeautifulSoup”则需要检查安装步骤或重新安装喽!安装完成之后,我们就可以享受它带给我们的良好体验了!
https://www.crummy.com/software/BeautifulSoup/
在使用之前,我们需要下载安装,可以使用官网给出的地址如下:
https://www.crummy.com/software/BeautifulSoup/#Download
或从其他地址下载均可,如:
https://pypi.python.org/pypi/beautifulsoup4/4.3.2
其介绍及使用方法在官网上有官方文档(纯英)介绍,链接如下:
https://www.crummy.com/software/BeautifulSoup/bs4/doc/
如果英语不好可以搜索阅读一些翻译好的文档,其安装步骤在官方文档上有详细的介绍,windows下可以通过命令行pip安装到python目录下;
pip install beautifulsoup4
或经上面的链接下载好安装包,解压打开之后通过setup.py安装
Python setup.py install
当然,在这之前,你需要安装好python。是否安装成功?我们可以测试一下,打开python command的窗口输入:
import bs4
from bs4 import BeautifulSoup
如果没有任何提示,则包引入成功,若提示“Python ImportError: No module named BeautifulSoup”则需要检查安装步骤或重新安装喽!安装完成之后,我们就可以享受它带给我们的良好体验了!
相关文章推荐
- 网络爬虫之BeautifulSoup入门(三)
- 网络爬虫之Beautifulsoup入门(二)
- 【使用JSOUP实现网络爬虫】入门:解析和遍历一个HTML文档
- 【使用JSOUP实现网络爬虫】入门:解析和遍历一个HTML文档
- Python 网络爬虫 002 (入门) 爬取一个网站之前,要了解的知识
- python3实现网络爬虫(4)--BeautifulSoup使用(3)
- python3实现网络爬虫(3)--BeautifulSoup使用(2)
- HTMLParser入门_01_网络爬虫的雏形_解析文章和处理文章中的图片
- 爬虫入门--按关键字爬取网络图片
- 网络爬虫开发入门教程(三):内置函数
- python3实现网络爬虫(6)--正则表达式和BeautifulSoup配合使用
- 使用python语言结合beautifulsoup编写简单的网络爬虫
- python:网络爬虫入门经验总结大大大大全
- python网络应用入门:网络爬虫的使用
- Python 网络爬虫 002 (入门) 爬取一个网站之前,要了解的知识
- WebCollector2.X 网络JAVA爬虫入门(抓取百度百科)
- Python入门网络爬虫之精华版
- 基于Python的网络爬虫入门
- 网络爬虫入门教程(二):configs详解
- python3实现网络爬虫(2)--BeautifulSoup使用(1)