您的位置：首页 > 编程语言 > Python开发

【开发日记】马桶识别之数据收集，通过Python抓取京东评论图片

2018-01-15 22:25 701 查看

通过迁移学习训练从天猫评论区获取的图片，正确率只有70%左右，远远达不到实际应用。很有可能的原因是数据量不够，深度学习需要很多的数据。因此，这里利用Python抓取京东评论图片。

本文主要是参考python爬虫（7）——获取京东商品评论信息。

其实不管是抓取天猫的评论图片，还是京东的评论图片，主要到的是获取评论的Url。不过，如果只是获取京东评论区的Url，获得的图片是缩小的图。为了获取大图，可以点击评论区的“晒图”，获取“晒图”的Url

这样获得的图片就是大图，具体的代码见下文：

# -*- coding: utf-8 -*-
import urllib.request
import json

count = 0
for i in range(0,100):
print("正在获取第{}页评论数据!".format(i+1))
url_pre = 'https://club.jd.com/discussion/getProductPageImageCommentList.action?productId=1589382246&isShadowSku=0&callback=jQuery4616523&'
url = url_pre+'page='+str(i+1)+'&pageSize=7&_=1516024916706'
html = urllib.request.urlopen(url).read().decode('gbk')
jsondata = html[14:-2]
try:
data = json.loads(jsondata)
for j in data['imgComments']['imgList']:
imageUrl = j['imageUrl']
if count<9:
name = '0000'+str(count+1)+'.jpg'
elif count<99:
name = '000'+str(count+1)+'.jpg'
elif count<999:
name = '00'+str(count+1)+'.jpg'
else:
name = str(count+1)+'.jpg'
conn = urllib.request.urlopen('http:'+imageUrl)
print(imageUrl)
f = open(name,'wb')
f.write(conn.read())
f.close()
count+=1
except:
continue
获取不同商品的评论图片时，只要按照参考文献的做法，获取“晒图”的Url，并替换上述代码的url即可。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 爬虫

相关文章推荐

新的分享

章节导航