火车采集器采集电商网站中网页源码中不显示的评论数据方法
2014-12-19 22:00
344 查看
1准备工具 (Fiddler 抓包工具 、火车头采集器)
2 以淘宝、京东为例
a首先打开Fiddler 软件
b打开要挖掘评论的网页如 京东 :http://item.jd.com/1023438.html#comments-list,在评论中点击评论的分页按钮,随便进入那一页的评论(便于抓包)
c在fiddler底部找评论的IP包 如图
经观察,发现s.club.jd.com 这个包是评论网页,把此地址可以输入浏览器检验(可以看到评论数据,则说明找对了)
d把此网址放到火车采集器即可 其他操作和有显示数据的网页操作一样
二 、淘宝数据挖掘操作:
抓包操作一样 选择:参数较多,也有多个变量,实验验证,只需设置这一个参数即可,currentPageNum=(*)
http://rate.taobao.com/feedRateList.htm?callback=jsonp_reviews_list&userNumId=41289893&auctionNumId=41162736586&siteID=7¤tPageNum=(*)&rateType=&orderType=sort_weight&showContent=1&attribute=&ua=022UW5TcyMNYQwiAiwQRHhBfEF8QXtHcklnMWc%3D%7CUm5Ockt3QnZDd0J6R3xFcCY%3D%7CU2xMHDJ7G2AHYg8hAS8RLQMjDVEwVjpdI1l3IXc%3D%7CVGhXd1llXGBVYVRgVW1Qa1JnUG1Pdkx5TXBNdU50SHNMdkN%2FS3NdCw%3D%3D%7CVWldfS0QMAs1CCgULAwiWDUZeBYyQn4baFhoTHEALngu%7CVmJCbEIU%7CV2lJGSUYLAwwCzYWKhQvGzsFPgM4BCQYIRglBTEMMREtFC0QMAU%2BA1UD%7CWGFcYUF8XGNDf0Z6WmRcZkZ8R2dZDw%3D%3D(*)
其他操作一样
2 以淘宝、京东为例
a首先打开Fiddler 软件
b打开要挖掘评论的网页如 京东 :http://item.jd.com/1023438.html#comments-list,在评论中点击评论的分页按钮,随便进入那一页的评论(便于抓包)
c在fiddler底部找评论的IP包 如图
经观察,发现s.club.jd.com 这个包是评论网页,把此地址可以输入浏览器检验(可以看到评论数据,则说明找对了)
d把此网址放到火车采集器即可 其他操作和有显示数据的网页操作一样
二 、淘宝数据挖掘操作:
抓包操作一样 选择:参数较多,也有多个变量,实验验证,只需设置这一个参数即可,currentPageNum=(*)
http://rate.taobao.com/feedRateList.htm?callback=jsonp_reviews_list&userNumId=41289893&auctionNumId=41162736586&siteID=7¤tPageNum=(*)&rateType=&orderType=sort_weight&showContent=1&attribute=&ua=022UW5TcyMNYQwiAiwQRHhBfEF8QXtHcklnMWc%3D%7CUm5Ockt3QnZDd0J6R3xFcCY%3D%7CU2xMHDJ7G2AHYg8hAS8RLQMjDVEwVjpdI1l3IXc%3D%7CVGhXd1llXGBVYVRgVW1Qa1JnUG1Pdkx5TXBNdU50SHNMdkN%2FS3NdCw%3D%3D%7CVWldfS0QMAs1CCgULAwiWDUZeBYyQn4baFhoTHEALngu%7CVmJCbEIU%7CV2lJGSUYLAwwCzYWKhQvGzsFPgM4BCQYIRglBTEMMREtFC0QMAU%2BA1UD%7CWGFcYUF8XGNDf0Z6WmRcZkZ8R2dZDw%3D%3D(*)
其他操作一样
相关文章推荐
- 网站学习备忘001——运用POST方法获取表单中的数据,并显示在同一网页中
- java采集网页数据方法【多线程数据采集之一】
- C# 网站数据采集网易NBA列表页面数据(新闻首页)源码
- 电商网站基本模块网页标题描写方法!
- 网页数据采集: 制作Amazon亚马逊网商品评论网页爬虫
- 新浪搜狐房产网站网页显示错误的解决方法
- 通过网页查看JS源码中汉字显示乱码的解决方法
- 电商网站基本模块网页标题描写方法!
- 模拟HTTP请求实现网页自动操作及数据采集的方法
- 关于通过网页查看JS源码中汉字显示乱码的解决方法
- java采集网页数据方法【多线程数据采集之一】
- 抓取网页中的内容、如何解决乱码问题、如何解决登录问题以及对所采集的数据进行处理显示的过程
- 爬虫 Http请求,urllib2获取数据,第三方库requests获取数据,BeautifulSoup处理数据,使用Chrome浏览器开发者工具显示检查网页源代码,json模块的dumps,loads,dump,load方法介绍
- ACCESS删除datagridview和数据库中的一条数据,同时更新显示的方法源码
- ASP网站数据采集程序制作:一个采集入库生成本地文件的几个FUCTION(可用来生成HTML静态网页)
- 在网页中显示数据的方法
- 网页爬虫技术之美团商家评论数据采集教程图解
- Python网络数据采集(1)——获取网页源码
- 基于机器学习的NLP情感分析(一)---- 数据采集与词向量构造方法(京东商品评论情感分析)
- ASP网站数据采集程序制作:一个采集入库生成本地文件的几个FUCTION(可用来生成HTML静态网页)