【数据采集】-目前比较流行的几种数据采集方式
2018-02-12 11:31
603 查看
总的来说目前互联网常用的数据采集分为APP采集和web端采集
对于APP采集最常用的方式就是通过集成SDK,进行埋点采集
对于这种方式,目前分为有无埋点采集,可视化埋点采集,手工埋点采集大类
分别针对于:日志的全量收集,日志的可编辑收集,和自定义埋点收集
对于web目前比常见的可以参考:
1.web service记录2.js嵌入收集3.包嗅探器
目前第二种是最流行的收集方式。通过使用JS收集客户端的cookie信息,浏览器等,发送到后台一组服务器,找了几个网站查看他们的收集数据,请求格式譬如:[html] view plain copy唯品会: http://mar.vip.com/p?mars_br_pos=&mars_cid=1398657717000_d430514ae3ce8aab29178c11eba5dcb1&mars_sid=b01fc069abdd38df7bd359d6429184f4&pi=0&mars_vid=BD55BF35DADC6722D8D2B29B5C4054A3&lvm_id=83619272008072580001401328910640&mars_var=-&lg=0&wh=VIP_SH&in=0&sn=&url=http://www.vip.com/&sr=1366*768&rf=&bw=1286&bh=150&sc=24&bv=mozilla/5.0 (windows nt 6.3; wow64) applewebkit/537.36 (khtml, like gecko) chrome/40.0.2214.93 safari/537.36&ce=1&vs=&title=唯品会(原Vipshop.com)特卖会:一家专门做特卖的网站_确保正品_确保低价_货到付款&tab_page_id=1423478314979_0c4c3141-f350-79ec-2e58-1b5bafda3332&vip_qe=undefined&vip_qt=undefined&vip_xe=&vip_xt=&r=0.03680062713101506 当当: http://click.dangdang.com/page_tracker.php?m_id=&o_id=®ion_ids=&out_refer=null&refer_url=&url=http://www.dangdang.com/&to_url=&type=1&visit_count=27&is_first_pv=0&ctr_type=&perm_id=20140430171404681303078869337380126&res=1366,768||1286,1518&r=0.9703021887689829&title=当当—网上购物中心:图书、母婴、美妆、家居、数码、家电、服装、鞋包等,正品低价,货到付款&trace_id=0.70&special=market=location:6;&cif=&rsv1=&rsv2=&rsv3=&rsv4=xxx 淘宝: http://ac.mmstat.com/1.gif?uid=802662066&apply=vote&abbucket=_AB-M65_B6&com=02&acm=tt-1097039-36356.1.1003&cod=tt-1097039-36356&cache=1874351609&aldid=72SdnsDn&logtype=4&abtest=_AB-LR65-PR65&scm=1003.1.tt-1097039-36356&ip=210.13.117.180
在服务器端如Nginx,进行query的parse配置,最后将数据以log方式存储。
对于APP采集最常用的方式就是通过集成SDK,进行埋点采集
对于这种方式,目前分为有无埋点采集,可视化埋点采集,手工埋点采集大类
分别针对于:日志的全量收集,日志的可编辑收集,和自定义埋点收集
对于web目前比常见的可以参考:
Tony_老七 总结的文章
在这里需要细分一下目前用户访问的平台,根据目前以及短期内技术发展,可以分为三种APP|PC|WAP,其中PC/WAP可以算一种,都是传统web交互方式,APP(说的是Native APP,iOS、Android etc)PC/WEB上实现一般有三种:1.web service记录2.js嵌入收集3.包嗅探器
Web日志 | JavaScript标记 | 包嗅探器 | |
优点 | ・比较容易获取数据源 ・方便对历史数据再处理 ・可以记录搜索引擎爬虫的访问记录 ・记录文件下载状况 | ・数据收集灵活,可定制性强 ・可以记录缓存、代理服务器访问 ・对访问者行动追踪更为准确 | ・对跨域访问的监测比较方便 ・取得实时数据比较方便 |
缺点 | ・无法记录缓存、代理服务器访问 ・无法捕获自定义的业务信息 ・对访问者的定位过于模糊 ・对跨域访问的监测比较麻烦 | ・用户端的JS设置会影响数据收集 ・记录下载和重定向数据比较困难 ・会增加网站的JS脚本负荷 | ・初期导入费用较高 ・无法记录缓存、代理服务器访问 ・对用户数据隐私有安全隐患 |
在服务器端如Nginx,进行query的parse配置,最后将数据以log方式存储。
相关文章推荐
- 大量数据插入的几种方式的速度比较
- 日期类型的数据,格式转换的几种实现方式比较
- 市面比较流行的几种访问oracle的数据引擎
- oracle数据导出几种方式比较
- 数据采集---前台往后台传送数据的几种方式
- as3比较存取数据的几种方式
- java核心知识点学习----多线程间的数据共享的几种实现方式比较
- IOS开发笔记(2)页面之间传递数据几种方式比较
- 【Spring MVC】从MVC到前后端分离(REST-个人也认为是目前比较流行和比较好的方式)
- 存储数据的几种方式比较
- 从MVC到前后端分离(REST-个人也认为是目前比较流行和比较好的方式)
- Hbase几种数据入库方式比较
- 从MVC到前后端分离(REST-个人也认为是目前比较流行和比较好的方式)
- 几种批量插入数据方式的比较
- (总结)web安全 防止数据采集的几种方式
- 多线程间的数据共享的几种实现方式比较
- 分析目前比较流行的几种3D立体眼镜
- C#网页采集数据的几种方式(WebClient、WebBrowser和HttpWebRequest/HttpWebResponse)
- Delphi中ADO处理数据的几种方式的速度比较
- Hbase几种数据入库方式比较