您的位置：首页 > 其它

Scrapy学习记录

2017-06-26 00:00 155 查看

摘要: 爬取淘宝商品信息

通过Scrapy框架获取淘宝商品信息，首先获取商品的种类。在淘宝首页信息如下：

然而查看页面源代码的时候找不到对应信息。后来在check页面NetWork信息时发现，当鼠标悬浮在主题市场时，会发送一条get request获取商品种类信息。

url: https://tce.alicdn.com/api/data.htm?ids=222887%2C222890%2C222889%2C222886%2C222906%2C222898%2C222907%2C222885%2C222895%2C222878%2C222908%2C222879%2C222893%2C222896%2C222918%2C222917%2C222888%2C222902%2C222880%2C222913%2C222910%2C222882%2C222883%2C222921%2C222899%2C222905%2C222881%2C222911%2C222894%2C222920%2C222914%2C222877%2C222919%2C222915%2C222922%2C222884%2C222912%2C222892%2C222900%2C222923%2C222909%2C222897%2C222891%2C222903%2C222901%2C222904%2C222916%2C222924&callback=jsonp1207

Response是json格式，使用正则表达式（"name":".*?","link":".*?"）获取到商品种类名称和url。

ps: python3 中re.match只会从文本开头match,如何从文本开始位置不符合时会直接返回None,最好使用search方法。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： Scrapy

相关文章推荐

新的分享

章节导航

添加评论
分享网址
分享文章
返回顶部