您的位置：首页 > 其它

如何挖掘GA自然流量里的Not Provided数据？

2013-06-20 10:43 746 查看

感谢Fimen的投稿：

经常用GA(GoogleAnalytics)的朋友可能会对GA自然流量报告里的notprovided很头痛，notprovided是谷歌为了保护用户隐私而有意过滤了那些已登陆用户的搜索信息。通常这些搜索信息会体现在url里面(如下图)，对于匿名用户来说，GA会截取这部分字段来提取关键词数据，

(图一：点击看大图)
一旦登陆了谷歌之后，情况就不一样了。我们注意看，url之前加了一个“https”,“https”就是安全搜索，可以确保数据传输的保密性，在国外，老外特别在意这玩意儿，特别涉及到交易流程时，https是必要的保障。所以，如果在数据传输过程中使用了”https”，那么基本上来说第三方要截取关键词数据就非常困难了。所以也就是为什么gaorganic里面这些数据都不再显示。当然谷歌肯定是有其他办法，毕竟搜索是发生在谷歌自己身上，为什么不这么做可能是谷歌有它所谓的“Don’tbeevil”文化吧，不过顺便透露一句，这些notprovided数据谷歌adwords用户是可以看到的，所以“Don’tbeevil”还是有一些小前提的，呵呵。

(图二：点击看大图)

进入正题

好了，废话说了这么多，现在咱们进入主题，对于谷歌这些notprovided数据，我们真的没辙了吗?虽然谷歌官方声称notprovided的影响程度平均在10%左右，但是从我目前观察来看，大部分网站都会高数这个数字，有甚者notprovided的流量占比高达50%之多。所以如果不对notprovided这部分流量做观察、研究和分析的话，我们可能会损失很多潜在订单。接下来我会拿一个礼品网站数据来和大家分享，为了保密的缘故，这些数据都是经过我人工修改的，但不影响数据所表现的大趋势。当然以后有可能的话，我也会拿自己网站http://seotime.org/blog来给大家做案例，只是目前流量实在不大，一些数据无法捕获，实在抱歉，这是题外话。

首先，在分析的时候先要把source选为google，因为其他搜索引擎没有这个notprovided的问题，然后你会发现，我取了一个月的流量数据，notprovided的访问数为632，占整体3,173的19.9%，这个让人情何以堪。

(图三：点击看大图)

高级细分

接下来分别建立三个高级细分：*礼网-品牌、*礼网-非品牌词和*礼网-notprovided，分别代表着品牌词、非品牌词和notprovided的用户数据表现，请仔细观察这三个细分的数据，品牌词毫无疑问是老客户，有较高的粘性和参与度，在这里PV是13.03，平均停留时间11:10分，新访客占比较少为40.43%，BounceRate为24.60%，这个数据和全站平均数据(上一张图)比起来，质量度是很高的;而非品牌词则不同，搜索非品牌词的用户由于意图比较宽泛，更多的是处在搜索周期中的比较和搜集信息这一阶段，所以各方面数据表现欠佳，PV值2.26，平均停留时间1.37分，跳出率高达74.62%。

(图四：点击看大图)

最后看notprovided,它的表现介于品牌词和非品牌词中间，pv是5.42小于品牌词的13.03，又大于非品牌词的2.26;在线停留时间4分34秒，新访客占比为76.27%，跳出率59.65%全部介于中间。再vs全站平均数据，我们发现notprovided各项数据相差不大，pv5.42vs5.26;平均停留时间4分34秒vs4分18秒;新访客占比76.27%vs73.90%;跳出率59.65%vs60.67%。

自定义报告基本点

这里插一句，由于这个ga报告我没有权限去创建funel，所以无法设定goal，严格意义上任何的seoreport需要有三项基本数据才能算合格：数量获取，行为检测和结果评估。

数量获取-主要指用户的访问量，独立访问量等，一个量化的数据

行为检测-是指如pv\在线停留时间\跳出率等反应用户参与度的数据

结果评估-主要是达成goal数量，可以是到达某个指定页面、完成某项购买、下载资料等

report里面少了每一样都可能会引起误判，比如某些关键词看起来流量很大，用户参与度也高，但是你若不给他们设定goal，不了解最终用户产生的结果或者对我们网站的价值，那么他们和我们网站又有什么关系呢?又比如有些关键词很能带来订单，行为数据也不错，但不知道具体的成单数量，那么我们就不能了解客单价，不能了解投入产出比。所以，一个标准的报告一定要包含这三个元素，才能得出更有insights的结论。

(图五)

可视化数据

现在拉回来，我们这里暂时就假设notprovided的goal完成占比也是介于brand与nbrand之间的，现在我们至少能够判断出，这批notprovided里面既包含品牌词，又包含非品牌词，而且品牌词和非品牌词总体上来说是比较均匀分布的，因为和全站平均值很近。但很可能notprovided里面包含的通用词占比相对更多一点点，从如下的坐标图可以看出，x轴是新访客占比，y轴是用户行为分值(综合多项数据)，原点是平均值的表现，橙色的点是品牌关键词，我们可以看出品牌词的用户行为数据分值相对较高，但是新访客占比较少;非品牌是绿点，正好相反，新访客占比多，但是用户行为数据低于平均值，而蓝色是notprovided的表现力，介于中间，但有偏向，我们把四个点连起来能够组成两个三角形，BAN和ANN，从中可以分析出notprovided离brand要比平均值离brand的距离远(三角形斜边最长)，而notprovided到nbranded的距离要比avgkw到nbrand的近，这张图标可以从视觉上形象说明，notprovided里面的关键词非品牌词占比稍微偏多一点点。

(图六)

当然，这个蓝色的点(notprovided)是一直在变动的，我们可以定期去做这样的一种图表来检测notprovided里面的关键词品牌与非品牌占比情况。不过说了这么多，我们还是不能很准确的知道notprovided里面到底包含了哪些关键词，但至少当你的老板问你是否对notprovided有想法的时候，你可以说出个所以然，而不是说，偶不知道。。。

结合登陆页

接下来我们做更进一步的工作，虽然我们不能准确知道到底notprovided里面包含了哪些具体的关键词，比如，我随便举例子，到底是“Fimen是谁?”还是“谁是Fimen?”，但是结合登陆页和上面的用户行为数据我们可以猜出个大概。如下我为notprovided数据添加一个登陆页作为二级维度：

(图七：点击看大图)

第一个notprovided对应的是首页，而该网站首页的title上面关键词既有品牌词，也有通用词，比如某某品牌手礼网，那到底这个词是品牌词还是非品牌词，我们可以去看它的用户行为数据，哦!它的pv达到14.27，哦!平均停留时间2分钟!新访客占比59.15%，这些数据和品牌词数据非常相似(还记得之前的数据吗?)，所以这些词一定是品牌词/品牌相关词，不大可能是通用词。再看第二行数据，从url我们就能猜到这个页面承载的是与台湾特产相关的词语，那到底是什么类型的词语?看后面的数据，很明显了吧?我就不说了。

当然，这个时候可能你要再问，那到底就是台湾特产这个词，还是其长尾词?比如台湾特产什么好?台湾特产推荐等等。我不能给你准确的答复，但是你可以继续细分这些词的行为数据，比如把这些长尾词按照某种特定词根继续分组观察，然后和原词去比较可能会得到你想要的结果。

好了，今天关于GA里面的notprovided数据挖掘和分析就到这里，Fimen期待下次再和大家分享，同时也希望听听大家的建议。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 数据分析建站工具免费资源

相关文章推荐

新的分享

章节导航