python爬虫笔记-weikipedia数据爬取
#from urllib import requestfrom urllib.requestimport urlopen#from urllib.request import Requestfrom urllib import parsefrom bs4 import BeautifulSoupimport re#请求url并把结果用UTF-8编码resp = urlopen("https://en.wikipedia.org/wiki/Main_Page").read().decode("utf-8")#使用BeautiSoup去解析soup = BeautifulSoup(resp,"html.parser")#获取所有以/wiki/开头的a标签的href属性listUrls = soup.find_all("a",href=re.compile("^/wiki/"))# ^表示是以wiki开头的,不是保护wiki的 , find_all返回的可以是一个正则表达式对象# print(listUrls)for urlin listUrls:print(url["href"])print("#########################################################")#输出所有词条对应名称和urlfor urlin listUrls:#循环记得加冒号#过滤以.jpg或者.JPG结尾的链接 if not re.search("\.(jpg|JPG)$",url["href"]):#if记得加冒号 \.表示字符点号 $表示结尾 print(url.get_text(),"-------","https://en.wikipedia.org" + url["href"])#输出url的href的属性 有冒号的地方就要缩进
总结:urllib与BeautifulSoup常用的方法urlopen,它可以用来请求一个地址,read()方法可以读取里面的内容,decode内容就可以进行编码。BeautifulSoup自带utf-8的编码,所以在urlopen处写不写都可以。代码中传给BeautifulSoup的解析器是Python自带的解析器html.parser获取文字内容的方法有两个一个是.string,还有一个是.get_text(),区别是前者只能获取一个,后者是获取标签下所有的文字。
阅读更多- Python爬虫(入门+进阶)学习笔记 1-5 使用pandas保存豆瓣短评数据
- python爬虫笔记<一:POST和GET数据传送>
- WSWP(用python写爬虫)笔记二:实现链接获取和数据存储爬虫
- python爬虫笔记(七):实战(三)股票数据定向爬虫
- Python爬虫(入门+进阶)学习笔记 1-7 数据入库之MongoDB(案例二:爬取拉勾)
- python爬虫笔记-weki数据传入数据库
- 鱼c笔记——Python爬虫(二):利用urllib.urlopen向有道翻译发送数据获得翻译结果
- python爬虫笔记-SQL查询weki数据
- Python爬虫笔记(2)根据目标信息解析数据和存储目标信息
- python3.4学习笔记(十四) 网络爬虫实例代码,抓取新浪爱彩双色球开奖数据实例
- Python爬虫urllib2笔记(五)数据传送设置HeadersURLError
- 爬虫笔记 : Python提取网站数据总概括
- python爬虫:使用Mongodb数据库存储数据学习笔记
- 基于百度API接口的python数据爬虫解析1【笔记】
- Python爬虫学习笔记一:简单网页图片抓取
- python股票数据爬虫requests、etree、BeautifulSoup学习
- python爬虫抓取链家租房数据
- 鱼c笔记——Python爬虫(四):从煎蛋网上爬取图片
- Python的学习笔记(五)(简单的爬虫)
- 非常全面到位的介绍与源代码地址 :Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱