码迷,mamicode.com
首页 > 其他好文 > 详细

数据清洗小记(12):姓与名的提取

时间:2015-12-28 17:03:59      阅读:196      评论:0      收藏:0      [点我收藏+]

标签:

【背景】
由源端抽取数据时,姓名中文为唯一字段,落地到目标端时,由于业务需要,需要有单独的姓氏字段和姓名字段,则需要利用长度判读函数、截取函数处理。

【解决】
1、长度判读利用case、length函数;
2、截取函数利用substr函数。

【实验】
1、构造源端实验表

create table yuduan 
(
english_name varchar2(100),
chinese_name varchar2(100)
);

2、插入实验数据

insert into yuduan(english_name,chinese_name) values (‘huanggai‘,‘黄盖‘);
insert into yuduan(english_name,chinese_name) values (‘zhugeliang‘,‘诸葛亮‘);
insert into yuduan(english_name,chinese_name) values (‘caocao‘,‘曹操‘);
insert into yuduan(english_name,chinese_name) values (‘suolanglaji‘,‘索朗拉吉‘);
insert into yuduan(english_name,chinese_name) values (‘ouyangzhenghua‘,‘欧阳正华‘);
commit;

3、查询源端数据情况

select * from yuduan;

技术分享
4、写查询语句进行测试,用于后续插入数据时使用

SELECT 
SYS_GUID() ID,--主键ID
ENGLISH_NAME ENGLISH_NAME,--英文名
CHINESE_NAME CHINESE_NAME,--中文名
CASE 
WHEN LENGTH(T.CHINESE_NAME)<=3 THEN SUBSTR(T.CHINESE_NAME,1,1)
ELSE SUBSTR(T.CHINESE_NAME,1,2) 
END PASG_FIRSTNAME, --旅客姓
CASE 
WHEN LENGTH(T.CHINESE_NAME)<=3 THEN SUBSTR(T.CHINESE_NAME,2)
ELSE SUBSTR(T.CHINESE_NAME,3) 
END  PASG_LASTNAME --旅客名
FROM YUDUAN T;

技术分享
5、模拟写插入目标端语句

INSERT /*+APPEND*/ INTO TB_PEOPLE NOLOGGING
SELECT 
SYS_GUID() ID,--主键ID
ENGLISH_NAME ENGLISH_NAME,--英文名
CHINESE_NAME CHINESE_NAME,--中文名
CASE 
WHEN LENGTH(T.CHINESE_NAME)<=3 THEN SUBSTR(T.CHINESE_NAME,1,1)
ELSE SUBSTR(T.CHINESE_NAME,1,2) 
END PASG_FIRSTNAME, --旅客姓
CASE 
WHEN LENGTH(T.CHINESE_NAME)<=3 THEN SUBSTR(T.CHINESE_NAME,2)
ELSE SUBSTR(T.CHINESE_NAME,3) 
END  PASG_LASTNAME --旅客名
FROM YUDUAN T;
COMMIT;

6、删除测试表

drop table yuduan purge;

小知识,简而记之。

蓝的成长记系列:

原创作品,出自 “深蓝的blog” 博客

蓝的成长记——追逐DBA(1):奔波于路上,挺进山东

蓝的成长记——追逐DBA(2):安装!安装!久违的记忆,引起我对DBA的重新认知

蓝的成长记——追逐DBA(3):古董上操作,数据导入导出成了问题

蓝的成长记——追逐DBA(4):追忆少年情愁,再探oracle安装

蓝的成长记——追逐DBA(5):不谈技术谈业务,恼人的应用系统

蓝的成长记——追逐DBA(6):做事与做人:小技术,大为人

蓝的成长记——追逐DBA(7):基础命令,地基之石

蓝的成长记——追逐DBA(8):重拾SP报告,回忆oracle的STATSPACK实验

蓝的成长记——追逐DBA(9):国庆渐去,追逐DBA,新规划,新启程

蓝的成长记——追逐DBA(10):飞刀防身,熟络而非专长:摆弄中间件Websphere

蓝的成长记——追逐DBA(11):回家后的安逸,晕晕乎乎醒了过来

蓝的成长记——追逐DBA(12):七天七收获的SQL

蓝的成长记——追逐DBA(13):协调硬件厂商,六个故事:所见所感的“服务器、存储、交换机……”

蓝的成长记——追逐DBA(14):难忘的“云”端,起步的hadoop部署

蓝的成长记——追逐DBA(15):以为FTP很“简单”,谁成想一波三折

蓝的成长记——追逐DBA(16):DBA也喝酒,被捭阖了

蓝的成长记——追逐DBA(17):是分享,还是消费,在后IOE时代学会成长

蓝的成长记——追逐DBA(18):小机上WAS集群故障,由一次更换IP引起

蓝的成长记——追逐DBA(19):路上的插曲:触碰“框架”与“软件系统”

蓝的成长记——追逐DBA(20):何故缘起,建库护航

其它篇章:

足球与oracle系列(1):32路诸侯点兵,oracle32进程联盟 之A组巴西SMON进程的大局观

足球与oracle系列(2):巴西揭幕战预演,oracle体系结构杂谈

足球与oracle系列(3):oracle进程排名,世界杯次回合即将战罢!

足球与oracle系列(4):从巴西惨败于德国,想到,差异的RAC拓扑对比!

足球与oracle系列(5):fifa14游戏缺失的directX库类比于oracle的rpm包!

足球与oracle系列(6):伴随建库的亚洲杯——加油中国队

数据清洗小记(12):姓与名的提取

标签:

原文地址:http://blog.csdn.net/huangyanlong/article/details/50419611

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!