【开发日记】马桶识别之数据收集,通过Python抓取京东评论图片
2018-01-15 22:25
701 查看
通过迁移学习训练从天猫评论区获取的图片,正确率只有70%左右,远远达不到实际应用。很有可能的原因是数据量不够,深度学习需要很多的数据。因此,这里利用Python抓取京东评论图片。
本文主要是参考python爬虫(7)——获取京东商品评论信息。
其实不管是抓取天猫的评论图片,还是京东的评论图片,主要到的是获取评论的Url。不过,如果只是获取京东评论区的Url,获得的图片是缩小的图。为了获取大图,可以点击评论区的“晒图”,获取“晒图”的Url
这样获得的图片就是大图,具体的代码见下文:
# -*- coding: utf-8 -*-
import urllib.request
import json
count = 0
for i in range(0,100):
print("正在获取第{}页评论数据!".format(i+1))
url_pre = 'https://club.jd.com/discussion/getProductPageImageCommentList.action?productId=1589382246&isShadowSku=0&callback=jQuery4616523&'
url = url_pre+'page='+str(i+1)+'&pageSize=7&_=1516024916706'
html = urllib.request.urlopen(url).read().decode('gbk')
jsondata = html[14:-2]
try:
data = json.loads(jsondata)
for j in data['imgComments']['imgList']:
imageUrl = j['imageUrl']
if count<9:
name = '0000'+str(count+1)+'.jpg'
elif count<99:
name = '000'+str(count+1)+'.jpg'
elif count<999:
name = '00'+str(count+1)+'.jpg'
else:
name = str(count+1)+'.jpg'
conn = urllib.request.urlopen('http:'+imageUrl)
print(imageUrl)
f = open(name,'wb')
f.write(conn.read())
f.close()
count+=1
except:
continue
获取不同商品的评论图片时,只要按照参考文献的做法,获取“晒图”的Url,并替换上述代码的url即可。
本文主要是参考python爬虫(7)——获取京东商品评论信息。
其实不管是抓取天猫的评论图片,还是京东的评论图片,主要到的是获取评论的Url。不过,如果只是获取京东评论区的Url,获得的图片是缩小的图。为了获取大图,可以点击评论区的“晒图”,获取“晒图”的Url
这样获得的图片就是大图,具体的代码见下文:
# -*- coding: utf-8 -*-
import urllib.request
import json
count = 0
for i in range(0,100):
print("正在获取第{}页评论数据!".format(i+1))
url_pre = 'https://club.jd.com/discussion/getProductPageImageCommentList.action?productId=1589382246&isShadowSku=0&callback=jQuery4616523&'
url = url_pre+'page='+str(i+1)+'&pageSize=7&_=1516024916706'
html = urllib.request.urlopen(url).read().decode('gbk')
jsondata = html[14:-2]
try:
data = json.loads(jsondata)
for j in data['imgComments']['imgList']:
imageUrl = j['imageUrl']
if count<9:
name = '0000'+str(count+1)+'.jpg'
elif count<99:
name = '000'+str(count+1)+'.jpg'
elif count<999:
name = '00'+str(count+1)+'.jpg'
else:
name = str(count+1)+'.jpg'
conn = urllib.request.urlopen('http:'+imageUrl)
print(imageUrl)
f = open(name,'wb')
f.write(conn.read())
f.close()
count+=1
except:
continue
获取不同商品的评论图片时,只要按照参考文献的做法,获取“晒图”的Url,并替换上述代码的url即可。
相关文章推荐
- 【开发日记】马桶识别之数据清洗,通过Resnet50清洗脏数据
- [置顶] [爬虫]使用python抓取京东全站数据(商品,店铺,分类,评论)
- 测试开发Python培训:抓取新浪微博评论提取目标数据-技术篇
- 京东猪脸识别比赛数据预处理:用Python将视频每一帧提取存储为图片
- Python抓取京东图书评论数据
- 【开发日记】马桶识别之马桶分类,增加图片数量再进行分类
- 通过抓取淘宝评论为例讲解Python爬取ajax动态生成的数据(经典)
- 通过抓取淘宝评论为例讲解Python爬取ajax动态生成的数据
- 测试开发Python培训:抓取新浪微博评论提取目标数据-技术篇
- Python抓取京东图书评论数据
- 【开发日记】马桶识别之马桶分类,通过迁移学习进行马桶分类
- 京东价格监控软件开发技术探讨二:通过HttpWebRequest获取指定网页数据
- imagemagick图片识别技术&数据抓取(转自:http://michael-roshen.iteye.com/blog/1982817)
- Python开源爬虫项目代码:抓取淘宝、京东、QQ、知网数据--转
- 利用python抓取京东的数据
- 测试开发Python培训:抓取新浪微博抓取数据-技术篇
- Python图片识别找坐标(appium通过识别图片点击坐标)
- python爬取ajax动态生成的数据 以抓取淘宝评论为例子
- 测试开发Python培训:抓取新浪微博抓取数据-技术篇