Python实例之抓取淘宝商品数据(json型数据)并保存为TXT
2017-05-29 18:17
936 查看
本实例实现了抓取淘宝网中以‘python’为关键字的搜索结果,经详细查看数据存储于html文档中的js脚本中,数据类型为JSON
具体实现代码如下:
具体实现代码如下:
import requests import re import json from urllib.parse import urlencode from bs4 import BeautifulSoup finalstr = '' count = 0 #初始化页码对应参数,0为首页 test = 0 #初始化数据总条数 for j in range(0,100): #共搜索100页数据 count = 44*j #每跳一页参数值增加44 data = { 'q':'python', 'imgfile':'', 'js':'1', 'stats_click':'search_radio_all:1', 'initiative_id':'staobaoz_20170529', 'ie':'utf8', 'bcoffset':'4', 'ntoffest':'4', 'p4ppushleft':'1,48', 's':count } #浏览器地址的get参数,只有's'会随着页码改变而改变 url = 'https://s.taobao.com/search?' + urlencode(data) #浏览器地址 req = requests.get(url) pattern = re.compile('g_page_config = (.*?);\n g_srp_loadCss()') #正则表达式匹配数据 result = pattern.search(req.text) # result.group(1) jsres = json.loads(result.group(1)) #匹配后获得的json数据深度比较大,需要层层剖析 sedata = jsres['mods'][ 'itemlist']['data']['auctions'] #经过剖析后的json数据 for i in range(0,len(sedata)): rt = '标题:'+sedata[i]['raw_title']+'\n' finalstr += rt rp = '价格:'+sedata[i]['view_price']+'\n' finalstr += rp rn = '卖家:'+sedata[i]['nick']+'\n' finalstr += rn rd = '地址:'+sedata[i]['item_loc']+'\n\n' finalstr += rd print('当前正在读取第'+str(j+1)+"页的第"+str(i+1)+'条数据...') test += 1 f = open('淘宝搜索python时的商品数据,共'+str(test)+'条.txt','w',1,'UTF-8') #保存数据到TXT f.write(finalstr) print('正在保存。。。') f.close() print('保存完毕!共'+str(test)+'条数据')
相关文章推荐
- Python实例之抓取HTML中的数据并保存为TXT
- Python实例之抓取网易云课堂搜索数据(post方式json型数据)并保存到数据库
- python使用numpy读取、保存txt数据的实例
- python淘宝爬虫基于requests抓取淘宝商品数据
- python 读取txt中每行数据,并且保存到excel中的实例
- 【实例】python 使用beautifulSoup 抓取网页正文 以淘宝商品价格为例
- python淘宝爬虫基于requests抓取淘宝商品数据
- python抓取页面数据实例
- 记录使用jQuery和Python抓取采集数据的一个实例
- Python3实例:爬取淘宝商品列表
- Python3将数据保存为txt文件
- python数据分析之csv/txt数据的导入和保存
- python从ftp下载数据保存实例
- python3.4学习笔记(十四) 网络爬虫实例代码,抓取新浪爱彩双色球开奖数据实例
- Python开源爬虫项目代码:抓取淘宝、京东、QQ、知网数据--转
- [置顶] [爬虫]使用python抓取京东全站数据(商品,店铺,分类,评论)
- python数据分析与挖掘学习笔记(2)-淘宝商品数据清洗及预处理
- PHP抓取淘宝商品的用户晒单评论+图片+搜索商品列表实例
- 简单的抓取淘宝关键字信息、图片的Python爬虫|Python3中级玩家:淘宝天猫商品搜索爬虫自动化工具(第二篇)
- Python处理txt数据实例