如何挖掘GA自然流量里的Not Provided数据?
2013-06-20 10:43
746 查看
感谢Fimen的投稿:
经常用GA(GoogleAnalytics)的朋友可能会对GA自然流量报告里的notprovided很头痛,notprovided是谷歌为了保护用户隐私而有意过滤了那些已登陆用户的搜索信息。通常这些搜索信息会体现在url里面(如下图),对于匿名用户来说,GA会截取这部分字段来提取关键词数据,
(图一:点击看大图)
一旦登陆了谷歌之后,情况就不一样了。我们注意看,url之前加了一个“https”,“https”就是安全搜索,可以确保数据传输的保密性,在国外,老外特别在意这玩意儿,特别涉及到交易流程时,https是必要的保障。所以,如果在数据传输过程中使用了”https”,那么基本上来说第三方要截取关键词数据就非常困难了。所以也就是为什么gaorganic里面这些数据都不再显示。当然谷歌肯定是有其他办法,毕竟搜索是发生在谷歌自己身上,为什么不这么做可能是谷歌有它所谓的“Don’tbeevil”文化吧,不过顺便透露一句,这些notprovided数据谷歌adwords用户是可以看到的,所以“Don’tbeevil”还是有一些小前提的,呵呵。
(图二:点击看大图)
进入正题
好了,废话说了这么多,现在咱们进入主题,对于谷歌这些notprovided数据,我们真的没辙了吗?虽然谷歌官方声称notprovided的影响程度平均在10%左右,但是从我目前观察来看,大部分网站都会高数这个数字,有甚者notprovided的流量占比高达50%之多。所以如果不对notprovided这部分流量做观察、研究和分析的话,我们可能会损失很多潜在订单。接下来我会拿一个礼品网站数据来和大家分享,为了保密的缘故,这些数据都是经过我人工修改的,但不影响数据所表现的大趋势。当然以后有可能的话,我也会拿自己网站http://seotime.org/blog来给大家做案例,只是目前流量实在不大,一些数据无法捕获,实在抱歉,这是题外话。
首先,在分析的时候先要把source选为google,因为其他搜索引擎没有这个notprovided的问题,然后你会发现,我取了一个月的流量数据,notprovided的访问数为632,占整体3,173的19.9%,这个让人情何以堪。
(图三:点击看大图)
高级细分
接下来分别建立三个高级细分:*礼网-品牌、*礼网-非品牌词和*礼网-notprovided,分别代表着品牌词、非品牌词和notprovided的用户数据表现,请仔细观察这三个细分的数据,品牌词毫无疑问是老客户,有较高的粘性和参与度,在这里PV是13.03,平均停留时间11:10分,新访客占比较少为40.43%,BounceRate为24.60%,这个数据和全站平均数据(上一张图)比起来,质量度是很高的;而非品牌词则不同,搜索非品牌词的用户由于意图比较宽泛,更多的是处在搜索周期中的比较和搜集信息这一阶段,所以各方面数据表现欠佳,PV值2.26,平均停留时间1.37分,跳出率高达74.62%。
(图四:点击看大图)
最后看notprovided,它的表现介于品牌词和非品牌词中间,pv是5.42小于品牌词的13.03,又大于非品牌词的2.26;在线停留时间4分34秒,新访客占比为76.27%,跳出率59.65%全部介于中间。再vs全站平均数据,我们发现notprovided各项数据相差不大,pv5.42vs5.26;平均停留时间4分34秒vs4分18秒;新访客占比76.27%vs73.90%;跳出率59.65%vs60.67%。
自定义报告基本点
这里插一句,由于这个ga报告我没有权限去创建funel,所以无法设定goal,严格意义上任何的seoreport需要有三项基本数据才能算合格:数量获取,行为检测和结果评估。
数量获取-主要指用户的访问量,独立访问量等,一个量化的数据
行为检测-是指如pv\在线停留时间\跳出率等反应用户参与度的数据
结果评估-主要是达成goal数量,可以是到达某个指定页面、完成某项购买、下载资料等
report里面少了每一样都可能会引起误判,比如某些关键词看起来流量很大,用户参与度也高,但是你若不给他们设定goal,不了解最终用户产生的结果或者对我们网站的价值,那么他们和我们网站又有什么关系呢?又比如有些关键词很能带来订单,行为数据也不错,但不知道具体的成单数量,那么我们就不能了解客单价,不能了解投入产出比。所以,一个标准的报告一定要包含这三个元素,才能得出更有insights的结论。
(图五)
可视化数据
现在拉回来,我们这里暂时就假设notprovided的goal完成占比也是介于brand与nbrand之间的,现在我们至少能够判断出,这批notprovided里面既包含品牌词,又包含非品牌词,而且品牌词和非品牌词总体上来说是比较均匀分布的,因为和全站平均值很近。但很可能notprovided里面包含的通用词占比相对更多一点点,从如下的坐标图可以看出,x轴是新访客占比,y轴是用户行为分值(综合多项数据),原点是平均值的表现,橙色的点是品牌关键词,我们可以看出品牌词的用户行为数据分值相对较高,但是新访客占比较少;非品牌是绿点,正好相反,新访客占比多,但是用户行为数据低于平均值,而蓝色是notprovided的表现力,介于中间,但有偏向,我们把四个点连起来能够组成两个三角形,BAN和ANN,从中可以分析出notprovided离brand要比平均值离brand的距离远(三角形斜边最长),而notprovided到nbranded的距离要比avgkw到nbrand的近,这张图标可以从视觉上形象说明,notprovided里面的关键词非品牌词占比稍微偏多一点点。
(图六)
当然,这个蓝色的点(notprovided)是一直在变动的,我们可以定期去做这样的一种图表来检测notprovided里面的关键词品牌与非品牌占比情况。不过说了这么多,我们还是不能很准确的知道notprovided里面到底包含了哪些关键词,但至少当你的老板问你是否对notprovided有想法的时候,你可以说出个所以然,而不是说,偶不知道。。。
结合登陆页
接下来我们做更进一步的工作,虽然我们不能准确知道到底notprovided里面包含了哪些具体的关键词,比如,我随便举例子,到底是“Fimen是谁?”还是“谁是Fimen?”,但是结合登陆页和上面的用户行为数据我们可以猜出个大概。如下我为notprovided数据添加一个登陆页作为二级维度:
(图七:点击看大图)
第一个notprovided对应的是首页,而该网站首页的title上面关键词既有品牌词,也有通用词,比如某某品牌手礼网,那到底这个词是品牌词还是非品牌词,我们可以去看它的用户行为数据,哦!它的pv达到14.27,哦!平均停留时间2分钟!新访客占比59.15%,这些数据和品牌词数据非常相似(还记得之前的数据吗?),所以这些词一定是品牌词/品牌相关词,不大可能是通用词。再看第二行数据,从url我们就能猜到这个页面承载的是与台湾特产相关的词语,那到底是什么类型的词语?看后面的数据,很明显了吧?我就不说了。
当然,这个时候可能你要再问,那到底就是台湾特产这个词,还是其长尾词?比如台湾特产什么好?台湾特产推荐等等。我不能给你准确的答复,但是你可以继续细分这些词的行为数据,比如把这些长尾词按照某种特定词根继续分组观察,然后和原词去比较可能会得到你想要的结果。
好了,今天关于GA里面的notprovided数据挖掘和分析就到这里,Fimen期待下次再和大家分享,同时也希望听听大家的建议。
经常用GA(GoogleAnalytics)的朋友可能会对GA自然流量报告里的notprovided很头痛,notprovided是谷歌为了保护用户隐私而有意过滤了那些已登陆用户的搜索信息。通常这些搜索信息会体现在url里面(如下图),对于匿名用户来说,GA会截取这部分字段来提取关键词数据,
(图一:点击看大图)
一旦登陆了谷歌之后,情况就不一样了。我们注意看,url之前加了一个“https”,“https”就是安全搜索,可以确保数据传输的保密性,在国外,老外特别在意这玩意儿,特别涉及到交易流程时,https是必要的保障。所以,如果在数据传输过程中使用了”https”,那么基本上来说第三方要截取关键词数据就非常困难了。所以也就是为什么gaorganic里面这些数据都不再显示。当然谷歌肯定是有其他办法,毕竟搜索是发生在谷歌自己身上,为什么不这么做可能是谷歌有它所谓的“Don’tbeevil”文化吧,不过顺便透露一句,这些notprovided数据谷歌adwords用户是可以看到的,所以“Don’tbeevil”还是有一些小前提的,呵呵。
(图二:点击看大图)
进入正题
好了,废话说了这么多,现在咱们进入主题,对于谷歌这些notprovided数据,我们真的没辙了吗?虽然谷歌官方声称notprovided的影响程度平均在10%左右,但是从我目前观察来看,大部分网站都会高数这个数字,有甚者notprovided的流量占比高达50%之多。所以如果不对notprovided这部分流量做观察、研究和分析的话,我们可能会损失很多潜在订单。接下来我会拿一个礼品网站数据来和大家分享,为了保密的缘故,这些数据都是经过我人工修改的,但不影响数据所表现的大趋势。当然以后有可能的话,我也会拿自己网站http://seotime.org/blog来给大家做案例,只是目前流量实在不大,一些数据无法捕获,实在抱歉,这是题外话。
首先,在分析的时候先要把source选为google,因为其他搜索引擎没有这个notprovided的问题,然后你会发现,我取了一个月的流量数据,notprovided的访问数为632,占整体3,173的19.9%,这个让人情何以堪。
(图三:点击看大图)
高级细分
接下来分别建立三个高级细分:*礼网-品牌、*礼网-非品牌词和*礼网-notprovided,分别代表着品牌词、非品牌词和notprovided的用户数据表现,请仔细观察这三个细分的数据,品牌词毫无疑问是老客户,有较高的粘性和参与度,在这里PV是13.03,平均停留时间11:10分,新访客占比较少为40.43%,BounceRate为24.60%,这个数据和全站平均数据(上一张图)比起来,质量度是很高的;而非品牌词则不同,搜索非品牌词的用户由于意图比较宽泛,更多的是处在搜索周期中的比较和搜集信息这一阶段,所以各方面数据表现欠佳,PV值2.26,平均停留时间1.37分,跳出率高达74.62%。
(图四:点击看大图)
最后看notprovided,它的表现介于品牌词和非品牌词中间,pv是5.42小于品牌词的13.03,又大于非品牌词的2.26;在线停留时间4分34秒,新访客占比为76.27%,跳出率59.65%全部介于中间。再vs全站平均数据,我们发现notprovided各项数据相差不大,pv5.42vs5.26;平均停留时间4分34秒vs4分18秒;新访客占比76.27%vs73.90%;跳出率59.65%vs60.67%。
自定义报告基本点
这里插一句,由于这个ga报告我没有权限去创建funel,所以无法设定goal,严格意义上任何的seoreport需要有三项基本数据才能算合格:数量获取,行为检测和结果评估。
数量获取-主要指用户的访问量,独立访问量等,一个量化的数据
行为检测-是指如pv\在线停留时间\跳出率等反应用户参与度的数据
结果评估-主要是达成goal数量,可以是到达某个指定页面、完成某项购买、下载资料等
report里面少了每一样都可能会引起误判,比如某些关键词看起来流量很大,用户参与度也高,但是你若不给他们设定goal,不了解最终用户产生的结果或者对我们网站的价值,那么他们和我们网站又有什么关系呢?又比如有些关键词很能带来订单,行为数据也不错,但不知道具体的成单数量,那么我们就不能了解客单价,不能了解投入产出比。所以,一个标准的报告一定要包含这三个元素,才能得出更有insights的结论。
(图五)
可视化数据
现在拉回来,我们这里暂时就假设notprovided的goal完成占比也是介于brand与nbrand之间的,现在我们至少能够判断出,这批notprovided里面既包含品牌词,又包含非品牌词,而且品牌词和非品牌词总体上来说是比较均匀分布的,因为和全站平均值很近。但很可能notprovided里面包含的通用词占比相对更多一点点,从如下的坐标图可以看出,x轴是新访客占比,y轴是用户行为分值(综合多项数据),原点是平均值的表现,橙色的点是品牌关键词,我们可以看出品牌词的用户行为数据分值相对较高,但是新访客占比较少;非品牌是绿点,正好相反,新访客占比多,但是用户行为数据低于平均值,而蓝色是notprovided的表现力,介于中间,但有偏向,我们把四个点连起来能够组成两个三角形,BAN和ANN,从中可以分析出notprovided离brand要比平均值离brand的距离远(三角形斜边最长),而notprovided到nbranded的距离要比avgkw到nbrand的近,这张图标可以从视觉上形象说明,notprovided里面的关键词非品牌词占比稍微偏多一点点。
(图六)
当然,这个蓝色的点(notprovided)是一直在变动的,我们可以定期去做这样的一种图表来检测notprovided里面的关键词品牌与非品牌占比情况。不过说了这么多,我们还是不能很准确的知道notprovided里面到底包含了哪些关键词,但至少当你的老板问你是否对notprovided有想法的时候,你可以说出个所以然,而不是说,偶不知道。。。
结合登陆页
接下来我们做更进一步的工作,虽然我们不能准确知道到底notprovided里面包含了哪些具体的关键词,比如,我随便举例子,到底是“Fimen是谁?”还是“谁是Fimen?”,但是结合登陆页和上面的用户行为数据我们可以猜出个大概。如下我为notprovided数据添加一个登陆页作为二级维度:
(图七:点击看大图)
第一个notprovided对应的是首页,而该网站首页的title上面关键词既有品牌词,也有通用词,比如某某品牌手礼网,那到底这个词是品牌词还是非品牌词,我们可以去看它的用户行为数据,哦!它的pv达到14.27,哦!平均停留时间2分钟!新访客占比59.15%,这些数据和品牌词数据非常相似(还记得之前的数据吗?),所以这些词一定是品牌词/品牌相关词,不大可能是通用词。再看第二行数据,从url我们就能猜到这个页面承载的是与台湾特产相关的词语,那到底是什么类型的词语?看后面的数据,很明显了吧?我就不说了。
当然,这个时候可能你要再问,那到底就是台湾特产这个词,还是其长尾词?比如台湾特产什么好?台湾特产推荐等等。我不能给你准确的答复,但是你可以继续细分这些词的行为数据,比如把这些长尾词按照某种特定词根继续分组观察,然后和原词去比较可能会得到你想要的结果。
好了,今天关于GA里面的notprovided数据挖掘和分析就到这里,Fimen期待下次再和大家分享,同时也希望听听大家的建议。
相关文章推荐
- 如何挖掘GA自然流量里的Not Provided数据?
- 如何增加店铺的自然搜索流量
- 问题:客户端从服务器分页获取列表,如何保证流量最少,且客户端和Server数据的一致性?
- 趣文:如何向外行解释机器学习和数据挖掘
- 数据挖掘是如何解决问题的
- 如何向小白介绍何谓机器学习和数据挖掘?买回芒果他就懂了
- Google和facebook如何应用R进行数据挖掘
- 如何通过自学,成为数据挖掘“高手”?
- 如何系统地学习数据挖掘?
- 趣文:如何向外行解释机器学习和数据挖掘
- 如何判断一笔交易是否属于欺诈 数据挖掘算法与现实生活中的应用案例
- 背靠腾讯PC大数据平台 微信如何挖掘大数据金矿?
- 如何通过数据挖掘做O2O
- 新浪微博如何挖掘大数据资源为用户带来新价值
- R语言数据挖掘中的,“回归分析”是如何操作的?
- 趣文:如何向外行解释机器学习和数据挖掘
- 如何向普通人解释机器学习、数据挖掘
- 如何系统地学习数据挖掘?
- 数据挖掘工程师如何选择数据可视化工具?
- 搜索引擎如何把最有价值的内容放在第一位展示给用户?——通过对用户行为的数据挖掘,提高pagerank算法的准确性