漫画BitMap在用户画像的应用
2017-08-29 23:30
357 查看
转载
两个月之前——
为满足用户标签的统计需求,小灰利用Mysql设计了如下的表结构,每一个维度的标签都对应着Mysql表的一列:
要想统计所有90后的程序员该怎么做呢?
用一条求交集的SQL语句即可:
Select
count(distinct Name) as 用户数 from table whare age = '90后' and Occupation = '程序员' ;
要想统计所有使用苹果手机或者00后的用户总合该怎么做?
用一条求并集的SQL语句即可:
Select
count(distinct Name) as 用户数 from table whare Phone = '苹果' or age = '00后' ;
两个月之后——
———————————————
1. 给定长度是10的bitmap,每一个bit位分别对应着从0到9的10个整型数。此时bitmap的所有位都是0。
2. 把整型数4存入bitmap,对应存储的位置就是下标为4的位置,将此bit置为1。
3. 把整型数2存入bitmap,对应存储的位置就是下标为2的位置,将此bit置为1。
4. 把整型数1存入bitmap,对应存储的位置就是下标为1的位置,将此bit置为1。
5. 把整型数3存入bitmap,对应存储的位置就是下标为3的位置,将此bit置为1。
要问此时bitmap里存储了哪些元素?显然是4,3,2,1,一目了然。
Bitmap不仅方便查询,还可以去除掉重复的整型数。
1. 建立用户名和用户ID的映射:
2. 让每一个标签存储包含此标签的所有用户ID,每一个标签都是一个独立的Bitmap。
3.
这样,实现用户的去重和查询统计,就变得一目了然:
1. 如何查找使用苹果手机的程序员用户?
2. 如何查找所有男性或者00后的用户?
几点说明:
1. 本文的灵感来源于京东金融数据部张洪雨同学的项目经历,感谢这位大神的技术分享。
2. 该项目最初的技术选型并非Mysql,而是内存数据库hana。本文为了便于理解,把最初的存储方案写成了Mysq数据库。
漫画算法系列
漫画算法:最小栈的实现
漫画算法:判断
2 的乘方
漫画算法:找出缺失的整数
漫画算法:辗转相除法是什么鬼?
漫画算法:什么是动态规划?(整合版)
漫画算法:什么是跳跃表?
漫画算法:什么是
B 树?
漫画算法:什么是
B+ 树?
漫画算法:什么是一致性哈希?
漫画算法:无序数组排序后的最大相邻差值
两个月之前——
为满足用户标签的统计需求,小灰利用Mysql设计了如下的表结构,每一个维度的标签都对应着Mysql表的一列:
要想统计所有90后的程序员该怎么做呢?
用一条求交集的SQL语句即可:
Select
count(distinct Name) as 用户数 from table whare age = '90后' and Occupation = '程序员' ;
要想统计所有使用苹果手机或者00后的用户总合该怎么做?
用一条求并集的SQL语句即可:
Select
count(distinct Name) as 用户数 from table whare Phone = '苹果' or age = '00后' ;
两个月之后——
———————————————
1. 给定长度是10的bitmap,每一个bit位分别对应着从0到9的10个整型数。此时bitmap的所有位都是0。
2. 把整型数4存入bitmap,对应存储的位置就是下标为4的位置,将此bit置为1。
3. 把整型数2存入bitmap,对应存储的位置就是下标为2的位置,将此bit置为1。
4. 把整型数1存入bitmap,对应存储的位置就是下标为1的位置,将此bit置为1。
5. 把整型数3存入bitmap,对应存储的位置就是下标为3的位置,将此bit置为1。
要问此时bitmap里存储了哪些元素?显然是4,3,2,1,一目了然。
Bitmap不仅方便查询,还可以去除掉重复的整型数。
1. 建立用户名和用户ID的映射:
2. 让每一个标签存储包含此标签的所有用户ID,每一个标签都是一个独立的Bitmap。
3.
这样,实现用户的去重和查询统计,就变得一目了然:
1. 如何查找使用苹果手机的程序员用户?
2. 如何查找所有男性或者00后的用户?
几点说明:
1. 本文的灵感来源于京东金融数据部张洪雨同学的项目经历,感谢这位大神的技术分享。
2. 该项目最初的技术选型并非Mysql,而是内存数据库hana。本文为了便于理解,把最初的存储方案写成了Mysq数据库。
漫画算法系列
漫画算法:最小栈的实现
漫画算法:判断
2 的乘方
漫画算法:找出缺失的整数
漫画算法:辗转相除法是什么鬼?
漫画算法:什么是动态规划?(整合版)
漫画算法:什么是跳跃表?
漫画算法:什么是
B 树?
漫画算法:什么是
B+ 树?
漫画算法:什么是一致性哈希?
漫画算法:无序数组排序后的最大相邻差值
相关文章推荐
- Greenplum roaring bitmap与业务场景 (类阿里云RDS PG varbitx, 应用于海量用户 实时画像和圈选、透视)
- 用户画像系统应用与技术解析
- 《海量日志数据分析与应用》之数据加工:用户画像
- Qunar用户画像构建策略及应用实践
- 高级产品经理教你如何进行用户画像及其应用场景
- 用户画像构建策略及应用实践
- 【业界实战】小米大数据总监司马云瑞详解小米用户画像的演进及应用解读
- 去哪儿的用户画像构建策略及应用实践
- 小米用户画像的演进及应用解读
- 《海量日志数据分析与应用》之数据加工:用户画像
- <转>用户画像构建策略及应用实践
- 用户画像的构建与使用2应用
- 【复杂网络】用户画像不应脱离社会关系,谈复杂网络的关键技术和应用实践
- 大数据的应用——用户画像
- 用户画像的构建与使用2应用
- 用户画像构建策略及应用实践
- 百分点苏海波-用户画像的构建与使用2应用
- 【原】浅谈KL散度(相对熵)在用户画像中的应用
- 大数据在京东的典型应用:京东用户画像技术曝光