您的位置:首页 > 其它

数据处理案例,数据质量案例【2000万开房记录泄露数据处理】

2014-02-22 15:15 218 查看
1)名称错误

北京害定区世纪城晴波园:一看地址就知道,应该应该是海淀区了

北京海定区世纪城:北京海淀区

2)

全半角替换

”北京*餐饮有限公司“改为””北京*餐饮有限公司““

3)空格替换

海淀区世纪城金源时代商务中心  C座

4)数据补齐

樊城区建华路:出现这个地址,应该加上湖北省襄阳市。

    a、做一张地区MAPPING表{省份、市、县、镇乡},如果有邮编号,首先我们可以根据邮编号找到对应的地区,则匹配成功

    b、如果没有邮编号,则根据名字来匹,这种数据就要看这个区的名称是不是有多个,找到相关模式匹配成功(区分不出来的,挑出来,再想办法)

    

5)数据拆分,利于统计分析

北京市海淀区世纪城翠叠园10楼4单元:最好拆分成"北京市","海淀区","世纪城","翠叠园" ,"10楼","4单元"

6)怎么处理数据库不识别的字?

数据库不识别的字,例如"虓" 在数据库中为"?"

7)

证件类型 :

ID代表身份证,OTH可能代表其他(other)

jz 代表什么意思呢?

找到国家规定法定证件种类{身份证,学生证,工作证、士兵证、军官证、护照和户口本}

8)

字段转换:时间字段的值转换成统一的时间格式。"2011-11-18 7:08:30","2011-3-30 15:03:53"  统一转换成时间格式 MySQL 中用 str_to_date(Version,'%Y-%m-%d %k:%i:%s')

9)

身份证号码补录:"130203790302***",再看一下出生日期“19790302”,则应该是"13020319790302***"。{以前老身份证应该年用的都是两位吗?}

10)

将邮编号为空的数据补齐:根据地址信息补还是根据身份证号前6位所映射出来的邮编。

11)

将地址列中有公司名称“海淀区世纪城金源时代商务中心****                 北京***传播有限公司”拆开成两个字段。

12)

时间字段为空的,怎么补齐这个数据?{这个字段很关键}

13)怎么来处理下面问题?

遇到多打了几个字,需要替换:“北京市海淀区世纪城远大园****1203号遭1“改为”“北京市海淀区世纪城远大园****1203号““

14)衍生数据(获得更加多的信息)

根据数据{手机号、邮箱},搜集信息,猜测用户所在工作地,学历等等

根据生日,计算出现在年龄。

根据身份证前6位,找到身份证所在地。{这个地址更可能是老家地址}{而地址栏的地址更可能是工作出差地址}

根据开房时间,计算出开房时间段。{不知道一般哪个时间段开房的人很危险,呵呵}

根据身份证前6位找到老家的人,然后再看一下在北京开房的人,算出大概有多少人在北京开房的老乡人数。

可计算出用户开房时的年龄:开房时间-出生日期

根据所在公司,算出用户所在行业

15)找出有价值用户 {给用户评级等等}
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息