您的位置:首页 > 编程语言 > Python开发

python抓取京东商品颜色&beautifulsoup的一些常用函数

2016-01-18 00:19 811 查看

  python爬虫抓取京东上商品时,大部分商品有颜色的选项,所以想把不同颜色的商品都爬取的时候,需要获得这个商品的url

  首先要找到商品颜色的那个地方,不知为何用浏览器看是显示javascript,然是用requests下载下来的时候就是用url的,尝试抓了一天点击的js去请求都没抓到,坑

  于是写了一个返回当前商品所有颜色的url数组的函数,如果只有一种颜色,那么就返回一个只有当前url的数组

import requests
from bs4 import BeautifulSoup

def getItemUrl(url):
r = requests.get(url)
soup = BeautifulSoup(r.content,'html.parser')
try:
tmpHref = [item.find('a') for item in soup.find(id='choose-color').find_all(class_='item')]
href = []
for h in tmpHref:
if h != None:
href.append('http:'+h.get('href'))
except:
href = [url]
return href

if __name__ == '__main__':
for item in getPage('http://item.jd.com/1076647290.html'):
print item
#http://item.jd.com/1739587109.html这个是只有一种颜色的,上面那个是有多种颜色的


  另外beautifulsoup的一些常用函数

find() :一般用于找某个id或者class,用法find(id=’xxx’)或者find(class_=’xxx’)

get() :一般用于获取当前标签下的某项属性

例子:如a href = ‘xxx’这样的先用find(‘a’)找到,再用get(‘href’)获得它的url
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: