您的位置:首页 > 编程语言 > Python开发

python爬虫简单尝试

2017-10-28 18:59 381 查看

python爬虫简单尝试

主要是获取网页数据,然后分析网页数据,获取自己需要的数据

获取网页数据的方法有些不同在不同的python上

# import urllib.request
# import urllib.parse
import urllib
from bs4 import BeautifulSoup

def getHtml(url):
# data=urllib.request.urlopen(url).read()
# data_final=data.decode('utf-8')
data_final=urllib.urlopen(url)
return data_final


上面是python2.7的代码 ;注释掉的是python3.x的代码;

有一点要注意:两个版本是不兼容的。

上面获取到了数据,下面就是解析了,解释用到了BeautifulSoup,该模块的介绍网上有好多

def pa():
respone=getHtml("http://www.wanandroid.com/")
soup=BeautifulSoup(respone, "html.parser")
books=soup.find(attrs={"class":"main_content_l"})
# print books
book_div=books.findAll('div',attrs={"class":"info_art"})
# print book_div[0]
for book in book_div:
book_name=book.span
if book_name is not None:
print book_name.string


上面解析的是鸿洋大神的玩Android网站(Android学习的好地方,推荐),只是简单的获取标签。



结语

后继会续深入的了解python,还有就是多看玩Android。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  python 爬虫 数据