您的位置:首页 > 其它

Scrapy学习记录

2017-06-26 00:00 155 查看
摘要: 爬取淘宝商品信息

通过Scrapy框架获取淘宝商品信息,首先获取商品的种类。在淘宝首页信息如下:



然而查看页面源代码的时候找不到对应信息。后来在check页面NetWork信息时发现,当鼠标悬浮在主题市场时,会发送一条get request获取商品种类信息。

url: https://tce.alicdn.com/api/data.htm?ids=222887%2C222890%2C222889%2C222886%2C222906%2C222898%2C222907%2C222885%2C222895%2C222878%2C222908%2C222879%2C222893%2C222896%2C222918%2C222917%2C222888%2C222902%2C222880%2C222913%2C222910%2C222882%2C222883%2C222921%2C222899%2C222905%2C222881%2C222911%2C222894%2C222920%2C222914%2C222877%2C222919%2C222915%2C222922%2C222884%2C222912%2C222892%2C222900%2C222923%2C222909%2C222897%2C222891%2C222903%2C222901%2C222904%2C222916%2C222924&callback=jsonp1207
Response是json格式,使用正则表达式("name":".*?","link":".*?")获取到商品种类名称和url。

ps: python3 中re.match只会从文本开头match,如何从文本开始位置不符合时会直接返回None,最好使用search方法。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  Scrapy