python抓取知乎首页文本信息的简单实现
2016-07-26 21:16
741 查看
利用requests提供的方法得到网页中的html文件,然后用beautifulsoup提供的方法解析网页信息。
find_all('a',{"class":"question_link"}):找出网页a标签中class为question_link的标签。
get_text():得到里面的文本信息。
本程序中先将所有的问题打印到控制台,然后将所有的答案打印在控制台。
源码如下所示:
find_all('a',{"class":"question_link"}):找出网页a标签中class为question_link的标签。
get_text():得到里面的文本信息。
本程序中先将所有的问题打印到控制台,然后将所有的答案打印在控制台。
源码如下所示:
#encoding:utf-8 #爬的知乎首页 import urllib.request from bs4 import BeautifulSoup url="http://www.zhihu.com/topic/19570752/top-answers" data=urllib.request.urlopen(url).read().decode('utf-8') bs=BeautifulSoup(data) questions=bs.find_all('a',{"class":"question_link"}) for question in questions: print(question.get_text()) answers=bs.find_all('div',{"class":"zh-summary summary clearfix"}) for answer in answers: print(answer.get_text())
相关文章推荐
- 6. ZigZag Conversion [easy] (Python)
- Python 第十课,面向对象补足,异常处理
- Python 第九课,面向对象进阶
- 【Python】map、filter、reduce函数简介
- Python 培训之MySql
- python循环与判断
- [Python] 技术贴系列之——Django部署方案简介
- 【Python】基础学习——列表(list),元祖(tuple),字典(dict),字符串(string),集合(set)
- 1. Two Sum [easy] (Python)
- Ubuntu下Python3和Python2的共存
- python不能安装库文件的解决方法
- 374. Guess Number Higher or Lower [easy] (Python)
- python的一个好玩模块wordcloud
- 彻底解决安装Python扩展包时Unable to find vcvarsall.bat
- Python中的序列相机和相乘
- python-argparse
- 关于python netsnmp模块 snmpwalk工具 timeout参数说明
- python学习
- 用 Python 写了个简单的股票量化交易框架
- python学习笔记:python 2与python 3的一些小区别