您的位置:首页 > 其它

如何挖掘GA自然流量里的Not Provided数据?

2013-06-20 10:43 746 查看
感谢Fimen的投稿:

经常用GA(GoogleAnalytics)的朋友可能会对GA自然流量报告里的notprovided很头痛,notprovided是谷歌为了保护用户隐私而有意过滤了那些已登陆用户的搜索信息。通常这些搜索信息会体现在url里面(如下图),对于匿名用户来说,GA会截取这部分字段来提取关键词数据,

(图一:点击看大图)
一旦登陆了谷歌之后,情况就不一样了。我们注意看,url之前加了一个“https”,“https”就是安全搜索,可以确保数据传输的保密性,在国外,老外特别在意这玩意儿,特别涉及到交易流程时,https是必要的保障。所以,如果在数据传输过程中使用了”https”,那么基本上来说第三方要截取关键词数据就非常困难了。所以也就是为什么gaorganic里面这些数据都不再显示。当然谷歌肯定是有其他办法,毕竟搜索是发生在谷歌自己身上,为什么不这么做可能是谷歌有它所谓的“Don’tbeevil”文化吧,不过顺便透露一句,这些notprovided数据谷歌adwords用户是可以看到的,所以“Don’tbeevil”还是有一些小前提的,呵呵。

(图二:点击看大图)

进入正题

好了,废话说了这么多,现在咱们进入主题,对于谷歌这些notprovided数据,我们真的没辙了吗?虽然谷歌官方声称notprovided的影响程度平均在10%左右,但是从我目前观察来看,大部分网站都会高数这个数字,有甚者notprovided的流量占比高达50%之多。所以如果不对notprovided这部分流量做观察、研究和分析的话,我们可能会损失很多潜在订单。接下来我会拿一个礼品网站数据来和大家分享,为了保密的缘故,这些数据都是经过我人工修改的,但不影响数据所表现的大趋势。当然以后有可能的话,我也会拿自己网站http://seotime.org/blog来给大家做案例,只是目前流量实在不大,一些数据无法捕获,实在抱歉,这是题外话。

首先,在分析的时候先要把source选为google,因为其他搜索引擎没有这个notprovided的问题,然后你会发现,我取了一个月的流量数据,notprovided的访问数为632,占整体3,173的19.9%,这个让人情何以堪。

(图三:点击看大图)

高级细分

接下来分别建立三个高级细分:*礼网-品牌、*礼网-非品牌词和*礼网-notprovided,分别代表着品牌词、非品牌词和notprovided的用户数据表现,请仔细观察这三个细分的数据,品牌词毫无疑问是老客户,有较高的粘性和参与度,在这里PV是13.03,平均停留时间11:10分,新访客占比较少为40.43%,BounceRate为24.60%,这个数据和全站平均数据(上一张图)比起来,质量度是很高的;而非品牌词则不同,搜索非品牌词的用户由于意图比较宽泛,更多的是处在搜索周期中的比较和搜集信息这一阶段,所以各方面数据表现欠佳,PV值2.26,平均停留时间1.37分,跳出率高达74.62%。

(图四:点击看大图)

最后看notprovided,它的表现介于品牌词和非品牌词中间,pv是5.42小于品牌词的13.03,又大于非品牌词的2.26;在线停留时间4分34秒,新访客占比为76.27%,跳出率59.65%全部介于中间。再vs全站平均数据,我们发现notprovided各项数据相差不大,pv5.42vs5.26;平均停留时间4分34秒vs4分18秒;新访客占比76.27%vs73.90%;跳出率59.65%vs60.67%。

自定义报告基本点

这里插一句,由于这个ga报告我没有权限去创建funel,所以无法设定goal,严格意义上任何的seoreport需要有三项基本数据才能算合格:数量获取,行为检测和结果评估。

数量获取-主要指用户的访问量,独立访问量等,一个量化的数据

行为检测-是指如pv\在线停留时间\跳出率等反应用户参与度的数据

结果评估-主要是达成goal数量,可以是到达某个指定页面、完成某项购买、下载资料等

report里面少了每一样都可能会引起误判,比如某些关键词看起来流量很大,用户参与度也高,但是你若不给他们设定goal,不了解最终用户产生的结果或者对我们网站的价值,那么他们和我们网站又有什么关系呢?又比如有些关键词很能带来订单,行为数据也不错,但不知道具体的成单数量,那么我们就不能了解客单价,不能了解投入产出比。所以,一个标准的报告一定要包含这三个元素,才能得出更有insights的结论。

(图五)

可视化数据

现在拉回来,我们这里暂时就假设notprovided的goal完成占比也是介于brand与nbrand之间的,现在我们至少能够判断出,这批notprovided里面既包含品牌词,又包含非品牌词,而且品牌词和非品牌词总体上来说是比较均匀分布的,因为和全站平均值很近。但很可能notprovided里面包含的通用词占比相对更多一点点,从如下的坐标图可以看出,x轴是新访客占比,y轴是用户行为分值(综合多项数据),原点是平均值的表现,橙色的点是品牌关键词,我们可以看出品牌词的用户行为数据分值相对较高,但是新访客占比较少;非品牌是绿点,正好相反,新访客占比多,但是用户行为数据低于平均值,而蓝色是notprovided的表现力,介于中间,但有偏向,我们把四个点连起来能够组成两个三角形,BAN和ANN,从中可以分析出notprovided离brand要比平均值离brand的距离远(三角形斜边最长),而notprovided到nbranded的距离要比avgkw到nbrand的近,这张图标可以从视觉上形象说明,notprovided里面的关键词非品牌词占比稍微偏多一点点。

(图六)

当然,这个蓝色的点(notprovided)是一直在变动的,我们可以定期去做这样的一种图表来检测notprovided里面的关键词品牌与非品牌占比情况。不过说了这么多,我们还是不能很准确的知道notprovided里面到底包含了哪些关键词,但至少当你的老板问你是否对notprovided有想法的时候,你可以说出个所以然,而不是说,偶不知道。。。

结合登陆页

接下来我们做更进一步的工作,虽然我们不能准确知道到底notprovided里面包含了哪些具体的关键词,比如,我随便举例子,到底是“Fimen是谁?”还是“谁是Fimen?”,但是结合登陆页和上面的用户行为数据我们可以猜出个大概。如下我为notprovided数据添加一个登陆页作为二级维度:

(图七:点击看大图)

第一个notprovided对应的是首页,而该网站首页的title上面关键词既有品牌词,也有通用词,比如某某品牌手礼网,那到底这个词是品牌词还是非品牌词,我们可以去看它的用户行为数据,哦!它的pv达到14.27,哦!平均停留时间2分钟!新访客占比59.15%,这些数据和品牌词数据非常相似(还记得之前的数据吗?),所以这些词一定是品牌词/品牌相关词,不大可能是通用词。再看第二行数据,从url我们就能猜到这个页面承载的是与台湾特产相关的词语,那到底是什么类型的词语?看后面的数据,很明显了吧?我就不说了。

当然,这个时候可能你要再问,那到底就是台湾特产这个词,还是其长尾词?比如台湾特产什么好?台湾特产推荐等等。我不能给你准确的答复,但是你可以继续细分这些词的行为数据,比如把这些长尾词按照某种特定词根继续分组观察,然后和原词去比较可能会得到你想要的结果。

好了,今天关于GA里面的notprovided数据挖掘和分析就到这里,Fimen期待下次再和大家分享,同时也希望听听大家的建议。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息