数据层互换和高性能并发处理

数据层交换和高性能并发处理
数据层交换和高性能并发处理(开源ETL大数据治理工具--KETTLE使用及二次开发 )
http://www.ibeifeng.com/goods-313.html
咨询QQ2110053820
课程讲师:李傲
课程分类:大数据
适合人群:高级
课时数量:15课时
更新程度:完毕
用到技术:KETTLE、spoon使用
涉及项目:源码分析、二次开发、流程设计

数据层互换和高性能并发处理

课程大纲:
1.ETL简介—开源KETTLE(1课时)
>介绍KETTLE在大数据应用的位置和作用。
>主要讲解ETL是什么,KETTLE进行简单介绍,并且使用例子进行KETTLE的使用介绍。
>介绍KETTLE流程的部署。
2.KETTLE使用(1课时)
>详细介绍KETTLE的spoon使用
>KETTLE的trans和job入门
>KETTLE的日志和调试工具使用
3. KETTLE之Step流程设计(3课时)
>编写例子介绍KETTLE常用的转换、清洗组件
>主要完成以下插件:
输入插件:
文本文件输入、生成记录、表输入、Fixed file input、Get data from XML
输出插件:
XML输出、删除、插入/更新、文本文件输出、更新、表输出
转换插件:
Add a checksum、Replace in string、Set field value、Unique rows(HashSet)、
增加常量、增加序列、字段选择、拆分字段
Flow插件:
Abort、Switch/case、空操作、过滤记录
脚本插件:
Modified Java Script Value、执行SQL脚本
查询插件:
File exists、Table exists、调用DB存储过程
4. KETTLE之Job流程设计(2课时)
>编写例子介绍KETTLE常用的作业组件
>主要完成以下插件:
通用插件:
START、DUMMY、Transformation、Success
文件管理插件:
Copy Files、Compare folders、Create a folder、Create file、Delete files、Delete folders、
File Compare、Move Files、Wait for file、Zip file、Unzip file
条件插件:
Check Db connections、Check files locked、Check if a folder is empty、Check if files exist、
File Exists、Table exists、Wait for
脚本插件:
Shell、SQL
Utility插件:
Ping a host、Truncate tables
文件传输插件:
Upload files to FTPS、Get a file with FTPS、FTP Delete
>Kettle与Hadoop的联合使用
5. KETTLE之流程性能调优与监控(1课时)
>介绍KETTLE的流程监控功能
>介绍KETTLE的性能优化方法
6. KETTLE之嵌入开发(1课时)
>编写程序介绍KETTLE的流程如何嵌入到我们的java应用中
主要包括java嵌入trans以及job流程
7. KETTLE之自定义Step、Job插件制作(3课时)
>编写Step和Job模板,并给大家作为二次开发的基础工程使用,提高大家的开发效率。
>编写程序说明Step和Job插件的开发方法。
8. KETTLE之数据同步方案(1课时)
>介绍5种数据同步方案,并且这5种方案都是支持异构数据同步的。
包括全量快速同步方案和增量同步方案
9. KETTLE之分区、集群以及原理(1课时)
>介绍KETTLE的分区原理,并且讲解配置使用。
>介绍KETTLE的集群原理,并且讲解配置使用,以及监控方法。
10. KETTLE之源码分析与二次开发(1课时)
>介绍KETTLE的SRC导入ECLIPSE方法,以及打包和运行方法。
>分析KETTLE的包结构以及运行流程,讲解KETTLE的运行原理。