数据处理案例,数据质量案例【2000万开房记录泄露数据处理】
2014-02-22 15:15
218 查看
1)名称错误
北京害定区世纪城晴波园:一看地址就知道,应该应该是海淀区了
北京海定区世纪城:北京海淀区
2)
全半角替换
”北京*餐饮有限公司“改为””北京*餐饮有限公司““
3)空格替换
海淀区世纪城金源时代商务中心 C座
4)数据补齐
樊城区建华路:出现这个地址,应该加上湖北省襄阳市。
a、做一张地区MAPPING表{省份、市、县、镇乡},如果有邮编号,首先我们可以根据邮编号找到对应的地区,则匹配成功
b、如果没有邮编号,则根据名字来匹,这种数据就要看这个区的名称是不是有多个,找到相关模式匹配成功(区分不出来的,挑出来,再想办法)
5)数据拆分,利于统计分析
北京市海淀区世纪城翠叠园10楼4单元:最好拆分成"北京市","海淀区","世纪城","翠叠园" ,"10楼","4单元"
6)怎么处理数据库不识别的字?
数据库不识别的字,例如"虓" 在数据库中为"?"
7)
证件类型 :
ID代表身份证,OTH可能代表其他(other)
jz 代表什么意思呢?
找到国家规定法定证件种类{身份证,学生证,工作证、士兵证、军官证、护照和户口本}
8)
字段转换:时间字段的值转换成统一的时间格式。"2011-11-18 7:08:30","2011-3-30 15:03:53" 统一转换成时间格式 MySQL 中用 str_to_date(Version,'%Y-%m-%d %k:%i:%s')
9)
身份证号码补录:"130203790302***",再看一下出生日期“19790302”,则应该是"13020319790302***"。{以前老身份证应该年用的都是两位吗?}
10)
将邮编号为空的数据补齐:根据地址信息补还是根据身份证号前6位所映射出来的邮编。
11)
将地址列中有公司名称“海淀区世纪城金源时代商务中心**** 北京***传播有限公司”拆开成两个字段。
12)
时间字段为空的,怎么补齐这个数据?{这个字段很关键}
13)怎么来处理下面问题?
遇到多打了几个字,需要替换:“北京市海淀区世纪城远大园****1203号遭1“改为”“北京市海淀区世纪城远大园****1203号““
14)衍生数据(获得更加多的信息)
根据数据{手机号、邮箱},搜集信息,猜测用户所在工作地,学历等等
根据生日,计算出现在年龄。
根据身份证前6位,找到身份证所在地。{这个地址更可能是老家地址}{而地址栏的地址更可能是工作出差地址}
根据开房时间,计算出开房时间段。{不知道一般哪个时间段开房的人很危险,呵呵}
根据身份证前6位找到老家的人,然后再看一下在北京开房的人,算出大概有多少人在北京开房的老乡人数。
可计算出用户开房时的年龄:开房时间-出生日期
根据所在公司,算出用户所在行业
15)找出有价值用户 {给用户评级等等}
北京害定区世纪城晴波园:一看地址就知道,应该应该是海淀区了
北京海定区世纪城:北京海淀区
2)
全半角替换
”北京*餐饮有限公司“改为””北京*餐饮有限公司““
3)空格替换
海淀区世纪城金源时代商务中心 C座
4)数据补齐
樊城区建华路:出现这个地址,应该加上湖北省襄阳市。
a、做一张地区MAPPING表{省份、市、县、镇乡},如果有邮编号,首先我们可以根据邮编号找到对应的地区,则匹配成功
b、如果没有邮编号,则根据名字来匹,这种数据就要看这个区的名称是不是有多个,找到相关模式匹配成功(区分不出来的,挑出来,再想办法)
5)数据拆分,利于统计分析
北京市海淀区世纪城翠叠园10楼4单元:最好拆分成"北京市","海淀区","世纪城","翠叠园" ,"10楼","4单元"
6)怎么处理数据库不识别的字?
数据库不识别的字,例如"虓" 在数据库中为"?"
7)
证件类型 :
ID代表身份证,OTH可能代表其他(other)
jz 代表什么意思呢?
找到国家规定法定证件种类{身份证,学生证,工作证、士兵证、军官证、护照和户口本}
8)
字段转换:时间字段的值转换成统一的时间格式。"2011-11-18 7:08:30","2011-3-30 15:03:53" 统一转换成时间格式 MySQL 中用 str_to_date(Version,'%Y-%m-%d %k:%i:%s')
9)
身份证号码补录:"130203790302***",再看一下出生日期“19790302”,则应该是"13020319790302***"。{以前老身份证应该年用的都是两位吗?}
10)
将邮编号为空的数据补齐:根据地址信息补还是根据身份证号前6位所映射出来的邮编。
11)
将地址列中有公司名称“海淀区世纪城金源时代商务中心**** 北京***传播有限公司”拆开成两个字段。
12)
时间字段为空的,怎么补齐这个数据?{这个字段很关键}
13)怎么来处理下面问题?
遇到多打了几个字,需要替换:“北京市海淀区世纪城远大园****1203号遭1“改为”“北京市海淀区世纪城远大园****1203号““
14)衍生数据(获得更加多的信息)
根据数据{手机号、邮箱},搜集信息,猜测用户所在工作地,学历等等
根据生日,计算出现在年龄。
根据身份证前6位,找到身份证所在地。{这个地址更可能是老家地址}{而地址栏的地址更可能是工作出差地址}
根据开房时间,计算出开房时间段。{不知道一般哪个时间段开房的人很危险,呵呵}
根据身份证前6位找到老家的人,然后再看一下在北京开房的人,算出大概有多少人在北京开房的老乡人数。
可计算出用户开房时的年龄:开房时间-出生日期
根据所在公司,算出用户所在行业
15)找出有价值用户 {给用户评级等等}
相关文章推荐
- 2000万开房记录泄露 开房星座排行榜:天秤座最爱开房
- 2000万开房记录泄露 开房星座排行榜:天秤座最爱开房
- RAID50更换硬盘引起的数据丢失--数据恢复案例记录
- 把控数据泄露,财务部门是关键,真实案例针针见血
- 交友网站的2000万用户数据遭泄露
- RAID50更换硬盘引起的数据丢失--数据恢复案例记录
- 数据处理案例二之数据汇总
- RAID5 16块盘 XFS文件系统数据恢复案例记录
- golang mysql 诊断之旅(2000万开房数据被曝光引发的血案)
- IBM DS3000存储DS3400数据恢复成功案例记录
- 某些酒店的开房数据数据库,2000多万条记录,解压后近8个G的个人开房数据
- 关于jQuery获取Action返回的JSON数据 项目真实案例 记录(Struts2)
- 2000万开房数据曝光,“查开房”网站被关
- IBM DS3000存储DS3400数据恢复成功案例记录
- 关于jQuery获取Action返回的JSON数据 项目真实案例 记录(Struts2)
- kettle案例六数据表关联--排序记录-记录集连接-过滤记录
- 记录一次bug解决过程:else未补全导致数据泄露和代码优化
- 《税收数据终端泄露防范及案例分析》
- 《税收数据终端泄露防范及案例分析》