Skip to content

Commit 5ed04a8

Browse files
committed
[1.1_dev][Taier-website] add flink sql docs
1 parent b7422bb commit 5ed04a8

17 files changed

+175
-57
lines changed

website/docs/functions/datasource.md

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -19,5 +19,5 @@ sidebar_label: 数据源
1919
该文件是一个zip压缩文件,里面需要包含.keytab文件和krb5.conf文件
2020
:::
2121

22-
填完必须要填的信息后,可以点击测试连通性按钮来检测该数据源是否可用,如果成功,再点击确定即可新增成功一个数据源
22+
填完必要信息后,可以点击测试连通性按钮来检测该数据源是否可用
2323

website/docs/functions/multi-cluster.md

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -375,5 +375,5 @@ prejob和session 都依赖chunjun的插件包和flink的lib包
375375
**sparkYarnArchive**是Spark SQL程序运行时加载的包 直接将spark目录下的jar包上传到对应目录
376376

377377
:::tip
378-
Flink、Spark可以添加自定义参数,在自定义参数中添加Flink、Spark官方参数来调整1任务提交参数信息
378+
Flink、Spark可以添加自定义参数,在自定义参数中添加Flink、Spark官方参数来调整任务提交参数信息
379379
:::

website/docs/functions/task/data-acquisition.md

Lines changed: 16 additions & 15 deletions
Original file line numberDiff line numberDiff line change
@@ -3,39 +3,40 @@ title: 实时采集
33
sidebar_label: 实时采集
44
---
55

6-
## 实时采集任务
7-
### 新建任务
6+
## 新建任务
87
进入"开发目录"菜单,点击"新建任务"按钮,并填写新建任务弹出框中的配置项,配置项说明:
98
1. 任务名称:需输入英文字母、数字、下划线组成,不超过64个字符
109
2. 任务类型:选择实时采集
1110
3. 存储位置:在页面左侧的任务存储结构中的位置
1211
4. 描述:长度不超过200个的任意字符
1312
点击"保存",弹窗关闭,即完成了新建任务
1413

15-
:::tip
16-
实时采集支持以向导模式或脚本模式进行任务的配置
17-
支持的数据源
18-
MySQL的Binlog模式到kafka
19-
Oracle的LogMiner模式到kafka
20-
实时同步任务默认为per-job模式
21-
:::
22-
### 任务配置
14+
## 任务配置
2315
实时采集任务的配置共分为4个步骤:
2416
1. 选择数据来源:选择已配置的数据源,系统会读取其中的数据
2517
2. 选择数据目标:选择已配置的数据源,系统会向其写入数据
2618
3. 通道控制:控制数据同步的执行速度、错误数据的处理方式等
2719
4. 预览保存:再次确认已配置的规则并保存
2820

29-
### 运行任务
21+
![add-source](/img/readme/data-acquisition.png)
22+
23+
## 运行任务
3024
在当前任务打开的状态下,单击编辑器右上角的「提交到调度」按钮,在实时运维中心提交任务
3125

32-
#### 任务配置
33-
![add-source](/img/readme/data-acquisition.png)
26+
## 任务指标
27+
点击任务名称,可以通过数据曲线、运行信息、日志、属性参数,四个纬度了解任务当前状态
28+
1.数据曲线: 通过配置的prometheus获取相应的指标
29+
2.属性参数:显示当前任务的脚本和环境参数
30+
3.运行信息:展示任务拓扑图
31+
4.日志:显示运行中的Task Managers 和 Job Manager 日志
3432

35-
#### 任务信息
3633
![add-source](/img/readme/data-acquisition-promethous.png)
3734

38-
### 任务展示
35+
## 支持的数据源
36+
`MySQL``Binlog`模式到`kafka`
37+
`Oracle``LogMiner`模式到`kafka`
38+
39+
## 任务运维
3940
在实时运维中心,可以进行提交、停止、续跑等操作
4041
:::tip
4142
续跑:分为两种情况

website/docs/functions/task/flink-sql.md

Lines changed: 119 additions & 3 deletions
Original file line numberDiff line numberDiff line change
@@ -3,14 +3,130 @@ title: Flink SQL
33
sidebar_label: Flink SQL
44
---
55

6-
## Flink SQL任务
6+
Flink SQL 任务提供两种模式进行选择
7+
## 向导模式
8+
> 提供向导式的开发引导,通过可视化的填写和下一步的引导,帮助快速完成数据任务的配置工作。学习成本低,但无法使用到一些高级功能
9+
10+
711
### 新建任务
812
进入"开发目录"菜单,点击"新建任务"按钮,并填写新建任务弹出框中的配置项,配置项说明:
913
1. 任务名称:需输入英文字母、数字、下划线组成,不超过64个字符
10-
2. 任务类型:选择数据同步
14+
2. 任务类型:选择Flink SQL
1115
3. 存储位置:在页面左侧的任务存储结构中的位置
1216
4. 描述:长度不超过200个的任意字符
13-
点击"保存",弹窗关闭,即完成了新建任务
17+
5. 点击"保存",弹窗关闭,即完成了新建任务
18+
19+
### 配置源表
20+
1. 点击添加源表,若需要添加多路`Kafka`作为输入时,可继续在下面的模块点击添加
21+
2. 选择数据源类型:目前只支持`Kafka`
22+
3. 选择`Kafka Topic`
23+
4. 映射表:由`Kafka Topi`c内的数据映射到`Flink`中的``,需在此输入`Flink`的表名,从而在`Flink`中以SQL的形式处理数据
24+
5. 时间特征:Flink分为`ProcTime``EventTime`两种时间特征
25+
:::tip
26+
ProcTime:处理时间指执行对应Operation的设备的系统时间
27+
EventTime:事件时间是每个单独事件在它的生产设备上发生的时间,若选择了EventTime,则还需补充时间列、偏移量和时区信息,这是Flink Watermark机制的要求
28+
> 时间列必须是映射表中已声明的一列(当前仅支持为Timestamp类型),含义是基于该列生成Watermark,并且标识该列为Event Time列,可以在后续Query中用来定义窗口
29+
偏移量单位为毫秒,含义为Watermark值与Event time值的偏移量。通常一条记录中的某个字段就代表了该记录的发生时间
30+
通过配置作业的时区调整时间类型数据的输出结果。默认时区为东八区(Asia/Shanghai)
31+
:::
32+
6. 并行度:算子的并发数,指的是Flink集群的Task Slot的数量
33+
34+
![add-source](/img/readme/flink-sql-source-table.png)
35+
36+
### 配置结果表
37+
1. 点击 添加结果表 ,若需要添加多路输出时,可继续在下面的模块点击 添加结果表
38+
2. 选择存储类型:目前可选择`MySQL``HBase``ElasticSearch`
39+
:::tip
40+
若选择了MySQL,需选择MySQL中的一张表
41+
若选择了HBase,需选择HBase中的一张表及rowkey
42+
若选择了ElasticSearch,需选择ElasticSearch中的索引、id
43+
:::
44+
3. 映射表:由`Kafka Topic`内的数据映射到Flink中的``,需在此输入Flink的表名,从而在Flink中以SQL的形式处理数据
45+
4. 字段信息:即Flink中此表对应的字段信息和类型。输入模式为 ` <源表字段名><字段类型>AS <源表映射字段名>` ,多字段信息通过回车进行分割
46+
5. 并行度:算子的并发数,指的是Flink集群的Task Slot的数量
47+
6. 数据输出时间:结果表输出数据的时间间隔,任务运行后每满足指定时间间隔就输出一次数据
48+
7. 数据输出条数:结果表输出数据的条数间隔,任务运行后每满足指定条数就输出一次数据
49+
50+
![add-source](/img/readme/flink-sql-sink-table.png)
51+
52+
### 编写SQL
53+
1. 编辑sql 保存,可至任务运维页面进行任务操作
54+
55+
![add-source](/img/readme/flink-sql.png)
56+
57+
## 脚本模式
58+
> 通过直接编写SQL脚本来完成数据开发,适合高级用户,学习成本较高。脚本模式可以提供更丰富灵活的能力,做精细化的配置管理
59+
60+
### 脚本示例
61+
```sql
62+
CREATE TABLE source
63+
(
64+
id INT,
65+
name STRING,
66+
money DECIMAL(32, 2),
67+
dateone timestamp,
68+
age bigint,
69+
datethree timestamp,
70+
datesix timestamp(6),
71+
datenigth timestamp(9),
72+
dtdate date,
73+
dttime time
74+
) WITH (
75+
'connector' = 'stream-x',
76+
'number-of-rows' = '10', -- 输入条数,默认无限
77+
'rows-per-second' = '1' -- 每秒输入条数,默认不限制
78+
);
79+
80+
CREATE TABLE sink
81+
(
82+
id INT,
83+
name STRING,
84+
money DECIMAL(32, 2),
85+
dateone timestamp,
86+
age bigint,
87+
datethree timestamp,
88+
datesix timestamp(6),
89+
datenigth timestamp(9),
90+
dtdate date,
91+
dttime time
92+
) WITH (
93+
'connector' = 'stream-x',
94+
'print' = 'true'
95+
);
96+
97+
insert into sink
98+
select *
99+
from source;
100+
```
101+
102+
:::tip
103+
脚本模式sql语法 请参考 [**chunjun**](https://github.com/DTStack/chunjun/blob/master/docs/quickstart.md)
104+
:::
105+
## 语法校验
106+
在任务提交运行前 检验sql语法的正确性
107+
108+
![add-source](/img/readme/flink-sql-grammy-check.png)
109+
110+
## 模式切换
111+
当向导模式满足不了需求的时候 可以转换为脚本模式
112+
113+
![add-source](/img/readme/flink-script-convert.png)
114+
![add-source](/img/readme/flink-script-convert-result.png)
115+
116+
## 任务运维
117+
在实时运维中心,可以进行提交、停止、续跑等操作
118+
:::tip
119+
续跑:分为两种情况
120+
1.通过指定文件恢复并续跑
121+
2.选择 CheckPoint或SavePoint 续跑
122+
> 在任务运行时会根据环境参数中execution.checkpointing.interval保存CheckPoint
123+
:::
124+
125+
## 数据源支持
126+
目前向导模式仅支持
127+
源表:`kafka`
128+
结果表: `hbase``mysql``es`
129+
维表:`mysql`
14130

15131

16132
:::caution

website/docs/functions/task/hive-sql.md

Lines changed: 2 additions & 3 deletions
Original file line numberDiff line numberDiff line change
@@ -3,15 +3,14 @@ title: Hive SQL
33
sidebar_label: Hive SQL
44
---
55

6-
## HiveSQL 任务
7-
### 新建任务
6+
## 新建任务
87
进入"开发目录"菜单,点击"新建任务"按钮,并填写新建任务弹出框中的配置项,配置项说明:
98
1. 任务名称:需输入英文字母、数字、下划线组成,不超过64个字符
109
2. 任务类型:选择Hive SQL
1110
3. 存储位置:在页面左侧的任务存储结构中的位置
1211
4. 描述:长度不超过200个的任意字符
1312
点击"保存",弹窗关闭,即完成了新建任务
14-
### 编辑任务
13+
## 编辑任务
1514
任务创建好后,可以在代码编辑器中编写SQL语句
1615
编写的SQL语句示例如下:
1716
```sql

website/docs/functions/task/spark-sql.md

Lines changed: 2 additions & 3 deletions
Original file line numberDiff line numberDiff line change
@@ -3,15 +3,14 @@ title: Spark SQL
33
sidebar_label: Spark SQL
44
---
55

6-
## SparkSQL 任务
7-
### 新建任务
6+
## 新建任务
87
进入"开发目录"菜单,点击"新建任务"按钮,并填写新建任务弹出框中的配置项,配置项说明:
98
1. 任务名称:需输入英文字母、数字、下划线组成,不超过64个字符。
109
2. 任务类型:选择SparkSQL。
1110
3. 存储位置:在页面左侧的任务存储结构中的位置。
1211
4. 描述:长度不超过200个的任意字符。
1312
点击"保存",弹窗关闭,即完成了新建任务。
14-
### 编辑任务
13+
## 编辑任务
1514
任务创建好后,可以在代码编辑器中编写SQL语句
1615
编写的SQL语句示例如下:
1716
```sql

website/docs/functions/task/sync.md

Lines changed: 18 additions & 17 deletions
Original file line numberDiff line numberDiff line change
@@ -2,8 +2,10 @@
22
title: 数据同步
33
sidebar_label: 数据同步
44
---
5+
数据同步 任务提供两种模式进行选择
6+
## 向导模式
7+
> 向导模式的特点是便捷、简单,可视化字段映射,快速完成同步任务配置,无需关心chunjun的json格式,但需要针对每种数据源进行适配开发
58
6-
## 数据同步任务
79
### 新建任务
810
进入"开发目录"菜单,点击"新建任务"按钮,并填写新建任务弹出框中的配置项,配置项说明:
911
1. 任务名称:需输入英文字母、数字、下划线组成,不超过64个字符
@@ -12,11 +14,6 @@ sidebar_label: 数据同步
1214
4. 描述:长度不超过200个的任意字符
1315
点击"保存",弹窗关闭,即完成了新建任务
1416

15-
:::tip
16-
数据开发支持以向导模式或脚本模式进行任务的配置
17-
向导模式的特点是便捷、简单,可视化字段映射,快速完成同步任务配置,无需关心chunjun的json格式,但需要针对每种数据源进行适配开发
18-
而脚本模式的特点是全能、高效,可深度调优,支持全部数据源,完全兼容chunjun的json格式
19-
:::
2017
### 任务配置
2118
数据同步任务的配置共分为5个步骤:
2219
1. 选择数据来源:选择已配置的数据源,系统会读取其中的数据
@@ -25,7 +22,15 @@ sidebar_label: 数据同步
2522
4. 通道控制:控制数据同步的执行速度、错误数据的处理方式等
2623
5. 预览保存:再次确认已配置的规则并保存
2724

28-
### 环境参数
25+
![add-source](/img/readme/sync.png)
26+
27+
## 脚本模式
28+
> 脚本模式的特点是全能、高效,可深度调优,支持全部数据源,完全兼容chunjun的json格式
29+
30+
### 任务配置
31+
![add-source](/img/readme/sync-json.png)
32+
33+
## 环境参数
2934
```properties
3035
## 任务运行方式:
3136
## per_job:单独为任务创建flink yarn session,适用于低频率,大数据量同步
@@ -44,32 +49,28 @@ sidebar_label: 数据同步
4449
```
4550

4651
:::tip
47-
右侧任务参数有数据同步的默认参数信息 可以修改数据同步的运行模式以及slot数量等参数 数据同步同步任务默认为session模式
52+
右侧任务参数有数据同步的默认参数信息 可以手动调整数据同步的运行模式以及slot数量等参数
53+
数据同步同步任务默认为session模式
4854
:::
4955

50-
### 运行任务
51-
在当前任务打开的状态下,单击编辑器右上角的「运行」按钮,可触发数据同步任务的运行
5256

53-
### 支持的数据源
5457

55-
#### 数据源
58+
## 向导模式支持的数据源
59+
### 数据源
5660
* MySQL
5761
* ORACLE
5862
* POSTGRESQL
5963
* HIVE
6064
* SPARK THRIFT
6165

62-
#### 写入源
66+
### 写入源
6367
* MySQL
6468
* ORACLE
6569
* POSTGRESQL
6670
* HIVE
6771
* SPARK THRIFT
6872

69-
#### 向导模式
70-
![add-source](/img/readme/sync.png)
71-
#### 脚本模式
72-
![add-source](/img/readme/sync-json.png)
73+
7374

7475
:::caution
7576
数据同步 依赖控制台 Flink组件 运行数据同步前请确保对应组件配置正确

website/docs/guides/introduction.md

Lines changed: 8 additions & 6 deletions
Original file line numberDiff line numberDiff line change
@@ -28,18 +28,20 @@ sidebar_position: 1
2828
* 实战检验:得到数百家企业客户生产环境实战检验
2929

3030
#### 易用性
31-
* 支持大数据作业`Spark``Flink`的调度,
31+
* 支持大数据作业`Spark``Flink``Hive`的调度,
3232
* 支持众多的任务类型,目前支持 Spark SQL、数据同步
3333
:::tip
34-
后续将开源: SparkMR、PySpark、FlinkMR、Python、Shell、Jupyter、Tersorflow、Pytorch、
35-
HadoopMR、Kylin、Odps、SQL类任务(MySQL、PostgreSQL、Hive、Impala、Oracle、SQLServer、TiDB、带格式的:突出显示
36-
greenplum、inceptor、kingbase、presto)
34+
后续将开源:
35+
SparkMR、PySpark、FlinkMR、Python、Shell、Jupyter、TersorFlow、Pytorch、
36+
HadoopMR、Kylin、Odps
37+
SQL类: MySQL、PostgreSQL、Impala、Oracle、SQLServer、TiDB、
38+
greenplum、inceptor、kingbase、presto
3739
:::
3840

3941
* 可视化工作流配置:支持封装工作流、支持单任务运行,不必封装工作流、支持拖拽模式绘制DAG
4042
* DAG监控界面:运维中心、支持集群资源查看,了解当前集群资源的剩余情况、支持对调度队列中的任务批量停止、任务状态、任务类型、重试次数、任务运行机器、可视化变量等关键信息一目了然
4143
* 调度时间配置:可视化配置
42-
* 多集群连接:支持一套调度系统连接多套`Hadoop`集群
44+
* 多集群配置:支持一套调度系统对接多`Hadoop`集群
4345

4446
#### 多版本引擎
4547
* 支持`Spark``Flink`等引擎的多个版本共存
@@ -68,7 +70,7 @@ sidebar_position: 1
6870
* 任务类型:支持SparkMR、PySpark、FlinkMR、Python、Shell、Jupyter、TensorFlow、Pytorch、
6971
HadoopMR、Kylin、Odps、SQL类任务(MySQL、PostgreSQL、Hive、Impala、Oracle、SQLServer、TiDB、greenplum、Inceptor、Kingbase、Presto)
7072
* 调度方式:同时支持Yarn/K8s
71-
* 计算引擎:同时支持Spark-2.1.x/2.4.x、/1.12(与Flink后续版本)
73+
* 计算引擎:同时支持Spark-2.1.x/2.4.x、Flink 1.12(与Flink后续版本)
7274
* 部署方式:同时支持Scheduler/Worker整合与分离部署
7375
* 功能支持:支持交易日历、事件驱动
7476
* 外部系统对接:支持Taier系统对接外部调度系统(AZKBAN、Control-M、DS调度)

website/docs/quickstart/deploy/backend.md

Lines changed: 2 additions & 2 deletions
Original file line numberDiff line numberDiff line change
@@ -9,11 +9,11 @@ sidebar_label: 后端部署
99
请登录 **MySQL** 数据库,创建名为 `taier` 数据库
1010
### 表数据
1111
#### 版本升级
12-
低版本升级到高版本 执行高版本目录下的**increment.sql**
12+
低版本升级到高版本 执行高版本目录下的`increment.sql`
1313

1414
如: 1.0升级到1.1 执行sql/1.1/1.1_increment.sql
1515
#### 初次部署
16-
直接执行sql下的**init.sql**创建新库
16+
直接执行sql下的`init.sql`创建新库
1717
## 项目编译
1818

1919
### 编译脚本

0 commit comments

Comments
 (0)