数据清洗初记:分类进行字符串转日期(某日期字段存在多类格式处理)

数据清洗小记:分类进行字符串转日期(某日期字段存在多类格式处理)

原创作品,出自 “深蓝的blog” 博客,欢迎转载,转载时请务必注明出处,否则有权追究版权法律责任。

深蓝的blog:http://blog.****.net/huangyanlong/article/details/46513855

 

【背景】

在清洗数据时,发现源端系统某时间类字段下的数据存在三类格式,怀疑这是源端接受自三个或更多系统的来源数据格式不统一造成的。之所以出现这种情况,因为源端该时间类字段竟然用的varchar2格式,可能源端系统在接受不同系统上传数据时没做规范造成的。需要把该字段下的数据按分类进行处理、清洗。

 

【解决】

我们可以利用case函数,对不同类型的数据进行分类处理,例如:

select 
CASE WHEN 条件1 THEN
    处理方式1
WHEN 条件2 THEN
    处理方式2
ELSE
    处理方式3
END 命名 from 源端表;

【实验】

创建实验表,如下:

create table 实验表 
(ID varchar2(32) default sys_guid(),
DATE_TIME varchar2(50),
MEMO varchar2(32)
);

插入实验数据,模拟出三类时间格式类型,如下:

insert into 实验表 (DATE_TIME,MEMO) values('2017-08-11 23.0:18.0:30.0','1');
insert into 实验表 (DATE_TIME,MEMO) values('2015-05-27 12.0:24.0:20.0','1');
insert into 实验表 (DATE_TIME,MEMO) values('20140409 11:00:12 PM','2');
insert into 实验表 (DATE_TIME,MEMO) values('20120401 10:10:00 AM','2');
insert into 实验表 (DATE_TIME,MEMO) values('2013 02 08 08:12:23:000 PM','3');
insert into 实验表 (DATE_TIME,MEMO) values('2015 01 31 09:00:00:000 PM','3');
commit;
select * from 实验表;

数据清洗初记:分类进行字符串转日期(某日期字段存在多类格式处理)

创建目标表,如下:

create table 目标表
(ID VARCHAR2(32),
RESULT_TIME DATE,
LEVEL_NUMBER VARCHAR2(32)
);

不处理情况下,抽取数据,报错如下:

数据清洗初记:分类进行字符串转日期(某日期字段存在多类格式处理)

INSERT /*+append*/ INTO 目标表 NOLOGGING 
SELECT
ID ID,
CASE WHEN DATE_TIME LIKE '%-%-%' THEN
  TO_DATE(REPLACE(DATE_TIME,'.0',''),'YYYY-MM-DD HH24:MI:SS') 
  WHEN DATE_TIME LIKE '% % % %:%:%:%' THEN
    TO_DATE(REPLACE(DATE_TIME,':000',''),'yyyy mm dd HH:MI:SS AM','NLS_DATE_LANGUAGE=American') 
ELSE
  TO_DATE(DATE_TIME,'yyyy mm dd HH:MI:SS AM','NLS_DATE_LANGUAGE=American') 
END 
RESULT_TIME,
MEMO LEVEL_NUMBER
FROM 实验表;
COMMIT;

SELECT * FROM 目标表;

数据清洗初记:分类进行字符串转日期(某日期字段存在多类格式处理)

小知识,简而记之。

 

补充:对于英文格式日期处理

select to_date('1-JULY-15 22:23:11','DD-MON-YY hh24:mi:ss') FROM DUAL;

数据清洗初记:分类进行字符串转日期(某日期字段存在多类格式处理)


*******************************************蓝的成长记系列****************************************************

原创作品,出自 “深蓝的blog” 博客,欢迎转载,转载时请务必注明出处(http://blog.****.net/huangyanlong)。

蓝的成长记——追逐DBA(1):奔波于路上,挺进山东

蓝的成长记——追逐DBA(2):安装!安装!久违的记忆,引起我对DBA的重新认知

蓝的成长记——追逐DBA(3):古董上操作,数据导入导出成了问题

蓝的成长记——追逐DBA(4):追忆少年情愁,再探oracle安装(Linux下10g、11g)

蓝的成长记——追逐DBA(5):不谈技术谈业务,恼人的应用系统

蓝的成长记——追逐DBA(6): 做事与做人:小技术,大为人

蓝的成长记——追逐DBA(7):基础命令,地基之石

蓝的成长记——追逐DBA(8):重拾SP报告,回忆oracle的STATSPACK实验

蓝的成长记——追逐DBA(9):国庆渐去,追逐DBA,新规划,新启程

蓝的成长记——追逐DBA(10):飞刀防身,熟络而非专长:摆弄中间件Websphere

蓝的成长记——追逐DBA(11):回家后的安逸,晕晕乎乎醒了过来

蓝的成长记——追逐DBA(12):七天七收获的SQL

蓝的成长记——追逐DBA(13):协调硬件厂商,六个故事:所见所感的“服务器、存储、交换机......”

蓝的成长记——追逐DBA(14):难忘的“云”端,起步的hadoop部署

蓝的成长记——追逐DBA(15):以为FTP很“简单”,谁成想一波三折

蓝的成长记——追逐DBA(16):DBA也喝酒,被捭阖了

蓝的成长记——追逐DBA(17):是分享,还是消费,在后IOE时代学会成长

******************************************************************************************************************

 

********************************************足球与oracle系列*************************************************

原创作品,出自 “深蓝的blog” 博客,欢迎转载,转载时请务必注明出处(http://blog.****.net/huangyanlong)。

足球与oracle系列(1):32路诸侯点兵,oracle32进程联盟 之A组巴西SMON进程的大局观

足球与oracle系列(2):巴西揭幕战预演,oracle体系结构杂谈

足球与oracle系列(3):oracle进程排名,世界杯次回合即将战罢!

足球与oracle系列(4):从巴西惨败于德国,想到,差异的RAC拓扑对比! 

足球与oracle系列(5):fifa14游戏缺失的directX库类比于oracle的rpm包!

足球与oracle系列(6):伴随建库的亚洲杯——加油中国队

******************************************************************************************************************