Python爬取百度百科,BeautifulSoup提取关键信息
2017-10-19 20:32
465 查看
本文主要爬取演员杨幂的百度百科,用到的python库有:requests和BeautifulSoup
主要内容共分为以下两个方面:
1、 用requests爬取网页内容
2、 用BeautifulSoup提取关键信息
以下为全部代码:
运行结果为:
杨幂_百度百科
中文名 :
杨幂
外文名 :
Yang Mi,Mini
别 名 :
紫曦、幂幂、狐狸、小幂、狐小幂、大幂幂
国 籍 :
中国
民 族 :
汉族
星 座 :
处女座
血 型 :
B型
身 高 :
166.5cm(净身高)
体 重 :
45kg
出生地 :
北京市
出生日期 :
1986年9月12日
职 业 :
演员、歌手、制片人
毕业院校 :
北京电影学院
经纪公司 :
嘉行杨幂工作室
代表作品 :
宫锁心玉、三生三世十里桃花、小时代、我是证人、逆时营救、仙剑奇侠传三、亲爱的翻译官、王昭君
主要成就 :
中国电视金鹰奖最具人气女演员
上海电视节白玉兰奖最具人气女演员
休斯顿国际电影节最佳女主角
唱片公司 :
少城时代
配 偶 :
刘恺威(2014年1月8日婚礼)
女 儿 :
小糯米(2014年6月1日出生)
生 肖 :
虎
粉丝名 :
蜜蜂
主要内容共分为以下两个方面:
1、 用requests爬取网页内容
2、 用BeautifulSoup提取关键信息
以下为全部代码:
import requests from bs4 import BeautifulSoup url="https://baike.baidu.com/item/%E6%9D%A8%E5%B9%82/149851?fr=aladdin" r=requests.get(url) r.encoding=r.apparent_encoding demo=r.text soup=BeautifulSoup(demo,"html.parser") print(soup.title.get_text()) p=soup.find_all("dt","basicInfo-item name") t=soup.find_all("dd","basicInfo-item value") print(p[0].get_text(),":") print(t[0].get_text())#中文名 print(p[1].get_text(),":") print(t[1].get_text())#外文名 print(p[2].get_text(),":") print(t[2].get_text())#别名 print(p[3].get_text(),":") print(t[3].get_text())#国籍 print(p[4].get_text(),":") print(t[4].get_text())#民族 print(p[5].get_text(),":") print(t[5].get_text())#星座 print(p[6].get_text(),":") print(t[6].get_text())#血型 print(p[7].get_text(),":") print(t[7].get_text())#身高 print(p[8].get_text(),":") print(t[8].get_text())#体重 print(p[9].get_text(),":") print(t[9].get_text())#出生地 print(p[10].get_text(),":") print(t[10].get_text())#出生日期 print(p[11].get_text(),":") print(t[11].get_text())#职业 print(p[12].get_text(),":") print(t[12].get_text())#毕业院校 print(p[13].get_text(),":") print(t[13].get_text())#经纪公司 print(p[14].get_text(),":") print(t[14].get_text())#代表作品 print(p[15].get_text(),":") print(t[15].get_text())#主要成就 print(p[16].get_text(),":") print(t[16].get_text())#唱片公司 print(p[17].get_text(),":") print(t[17].get_text())#配偶 print(p[18].get_text(),":") print(t[18].get_text())#女儿 print(p[19].get_text(),":") print(t[19].get_text())#生肖 print(p[20].get_text(),":") print(t[20].get_text())#粉丝名
运行结果为:
杨幂_百度百科
中文名 :
杨幂
外文名 :
Yang Mi,Mini
别 名 :
紫曦、幂幂、狐狸、小幂、狐小幂、大幂幂
国 籍 :
中国
民 族 :
汉族
星 座 :
处女座
血 型 :
B型
身 高 :
166.5cm(净身高)
体 重 :
45kg
出生地 :
北京市
出生日期 :
1986年9月12日
职 业 :
演员、歌手、制片人
毕业院校 :
北京电影学院
经纪公司 :
嘉行杨幂工作室
代表作品 :
宫锁心玉、三生三世十里桃花、小时代、我是证人、逆时营救、仙剑奇侠传三、亲爱的翻译官、王昭君
主要成就 :
中国电视金鹰奖最具人气女演员
上海电视节白玉兰奖最具人气女演员
休斯顿国际电影节最佳女主角
唱片公司 :
少城时代
配 偶 :
刘恺威(2014年1月8日婚礼)
女 儿 :
小糯米(2014年6月1日出生)
生 肖 :
虎
粉丝名 :
蜜蜂
相关文章推荐
- Python网络爬虫与信息提取(二)—— BeautifulSoup
- python爬虫里信息提取的核心方法: Beautifulsoup、Xpath和正则表达式
- Python网络爬虫与信息提取(二) BeautifulSoup库
- Python 网络爬虫与信息获取(二)—— 页面内容提取
- 利用Python提取心跳节律信息
- [python爬虫] BeautifulSoup和Selenium简单爬取知网信息测试
- python使用BeautifulSoup分析网页信息的方法
- Python网络爬虫与信息提取(实例讲解)
- python常用模块email----从原始邮件中提取邮件头信息
- python从oracel中提取ip信息并批量ping后保存
- 字段计算器通过python脚本完成要素节点坐标信息提取到属性字段中
- Python网络爬虫与信息提取-Day12-Re(正则表达式)库入门
- python读取raw binary图片并提取统计信息
- 使用Python+selenium+BeautifulSoup抓取动态网页的关键信息
- python爬虫学习 信息标记与提取方法
- 【极客学院】-python学习笔记-3-单线程爬虫 (request安装遇到问题及解决,应用requests提取信息)
- python爬虫提取信息:正则表达式和xpath
- python3爬取使用BeautifulSoup爬取前程无忧的python招聘信息入库MongoDB!
- 邮件回复审批工作流:通过正则表达式提取关键审批信息
- python+正则表达式提取“参考文献”中的作者名,发表日期等信息