博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
etl工具,kettle实现循环
阅读量:6943 次
发布时间:2019-06-27

本文共 674 字,大约阅读时间需要 2 分钟。

  

Kettle是一款国外开源的ETL工具,纯编写,可以在Window、、Unix上运行,绿色无需安装,数据抽取高效稳定。

 

业务模型: 在关系型中有张很大的数据存储表,被设计成奇偶库存储,每个库100张一模一样的表,每张表存储1000W,自动切换到下一个表。现需要同步这个数据到中(hdfs),循环抽取这些数据。如果是抽取增量的带上增量字段(每天增量数据存储在哪个表,奇数库还是偶数库是不知道的)。

 

 a sqoop直接从hive,这样有些特殊字符会导致sqoop异常终止。而且这样循环对服务器的数据库大量取数,对服务器压力很大,很容易导致服务器瘫痪。

 b 使用kettle处理转换过程就没有这样的问题。kettle支持分页取数据,一定程度上减轻服务器压力。

 

先看总结构图(以下版本为5.1

设置环境变量

3 : 代码

 

编辑内容为

var count;

count = parent_job.getVariable("V_ID");

if(count == 10){

    false;

}else{

    count++;

    parent_job.setVariable("V_ID", count);

    true;

}

4 新建转换

 

编辑转换,内容为:

5  dummy  条件判断,不作修改

 

设置循环逻辑,箭头方向和类型很重要

6 执行job,循环。

另外附上3.2版本的kettle循环

设置变量

设置判断条件

转换 表输入文件输出

Js判断

 

 

 

来源:http://blog.csdn.net/lili72/article/details/39716455

 

你可能感兴趣的文章
Redis 的 KEYS 命令引起 RDS 数据库雪崩,宕机 2 次,造成几百万损失
查看>>
点播转码相关常见问题及排查方式
查看>>
gc.collect()清内存
查看>>
如何在HTTPS里调用HTTP资源不出现提示框
查看>>
Jenkins 2.173 发布,开源持续集成引擎
查看>>
《文科生数据科学上手指南》分享
查看>>
PostgreSQL json 索引实践 - 检索(存在、包含、等值、范围等)加速
查看>>
第12章—使用NoSQL数据库—使用MongoDB+Jpa操作数据库
查看>>
ListView实现物流追踪
查看>>
05.Eclipse下Ndk开发(增量更新)
查看>>
TP5使用二维码PHP QR Code生成带LOGO和不带LOGO的二维码
查看>>
报表查询条件的正确打开方式,看到最后不禁会心一下
查看>>
捕获未处理的Promise错误
查看>>
mac-switch-meta.el
查看>>
spring源码分析(一)资源文件的加载
查看>>
基于卷积神经网络的以图搜图算法实现
查看>>
同步与异步的区别
查看>>
SQL获取上月第一天和最后一天
查看>>
填报表更新时去除重复数据
查看>>
淘宝分词怎么查看,详谈淘宝分词原则
查看>>