标签:来源 错误 字段 str 项目 电话 color 常用 总结
接触Python两年多了,还从来没有独立用Python完成一个项目,说来惭愧。最近因为工作需要,用Excel和oracle整理数据貌似不可行了,于是转向Python,理所当然的踩了很多坑,一一记录下来,避免以后再次入坑,毕竟不常用,好了伤疤就会忘了疼···
业务场景:
领导拿来几个Excel,共150W条保险数据,需要按照特定规则筛选出满足条件的数据。
字段:业务机构、保单号、案件号、被保险人、代码1、标的车号、VIN码、驾驶员、电话、出险时间、出险经过、维修企业、定损金额、三者车号、三者VIN、三者驾驶员、代码2、三者维修企业、查勘定损人员;
150W条数据没有唯一标识字段:同一个案件号对应一个标的车号、0-多个三者车号,一个标的车号对应一个或多个保单号,所以需要通过标的车号、保单号、报案号三个字段唯一确定一条理赔记录。
筛选规则:
给到的数据,有以下几个问题:
问题总结:
这就是一个简单的数据筛选工作!
但是刚好工作不忙,刚好也想拿数据练练手,于是就开始操练起来了~
动手之前,要通过各种途径对数据进行全方位的了解,否则,浪费时间!
通过向数据来源方询问变量之间的关系、通过常识判断各变量的取值特性、通过探索性分析了解各变量的缺失/取值情况、结果导向分析数据清洗过程中可能会遇到的问题。
问题分解:
代码部分,我要放到另一篇文章里面~
标签:来源 错误 字段 str 项目 电话 color 常用 总结
原文地址:https://www.cnblogs.com/cyxiaer/p/9501926.html