您的位置:首页 > 编程语言 > Python开发

【开发日记】马桶识别之数据收集,通过Python抓取京东评论图片

2018-01-15 22:25 701 查看
通过迁移学习训练从天猫评论区获取的图片,正确率只有70%左右,远远达不到实际应用。很有可能的原因是数据量不够,深度学习需要很多的数据。因此,这里利用Python抓取京东评论图片。

本文主要是参考python爬虫(7)——获取京东商品评论信息

其实不管是抓取天猫的评论图片,还是京东的评论图片,主要到的是获取评论的Url。不过,如果只是获取京东评论区的Url,获得的图片是缩小的图。为了获取大图,可以点击评论区的“晒图”,获取“晒图”的Url



这样获得的图片就是大图,具体的代码见下文:

# -*- coding: utf-8 -*-
import urllib.request
import json

count = 0
for i in range(0,100):
print("正在获取第{}页评论数据!".format(i+1))
url_pre = 'https://club.jd.com/discussion/getProductPageImageCommentList.action?productId=1589382246&isShadowSku=0&callback=jQuery4616523&'
url = url_pre+'page='+str(i+1)+'&pageSize=7&_=1516024916706'
html = urllib.request.urlopen(url).read().decode('gbk')
jsondata = html[14:-2]
try:
data = json.loads(jsondata)
for j in data['imgComments']['imgList']:
imageUrl = j['imageUrl']
if count<9:
name = '0000'+str(count+1)+'.jpg'
elif count<99:
name = '000'+str(count+1)+'.jpg'
elif count<999:
name = '00'+str(count+1)+'.jpg'
else:
name = str(count+1)+'.jpg'
conn = urllib.request.urlopen('http:'+imageUrl)
print(imageUrl)
f = open(name,'wb')
f.write(conn.read())
f.close()
count+=1
except:
continue
获取不同商品的评论图片时,只要按照参考文献的做法,获取“晒图”的Url,并替换上述代码的url即可。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  爬虫