10 KiB
Dolphin Scheduler是什么?
一个分布式易扩展的可视化DAG工作流任务调度系统。致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用
。
GitHub URL: https://github.com/apache/incubator-dolphinscheduler
Official Website: https://dolphinscheduler.apache.org
如何使用docker镜像
以 docker-compose 的方式启动dolphinscheduler(推荐)
$ docker-compose -f ./docker/docker-swarm/docker-compose.yml up -d
在docker-compose.yml
文件中,默认的创建Postgres
的用户、密码和数据库,默认值分别为:root
、root
、dolphinscheduler
。
同时,默认的Zookeeper
也会在docker-compose.yml
文件中被创建。
访问前端界面:http://192.168.xx.xx:12345/dolphinscheduler
或者通过环境变量 DATABASE_HOST
DATABASE_PORT
ZOOKEEPER_QUORUM
使用已存在的服务
你可以指定已经存在的 Postgres
和 Zookeeper
服务. 如下:
$ docker run -d --name dolphinscheduler \
-e ZOOKEEPER_QUORUM="192.168.x.x:2181" \
-e DATABASE_HOST="192.168.x.x" -e DATABASE_PORT="5432" -e DATABASE_DATABASE="dolphinscheduler" \
-e DATABASE_USERNAME="test" -e DATABASE_PASSWORD="test" \
-p 12345:12345 \
apache/dolphinscheduler:latest all
访问前端界面:http://192.168.xx.xx:12345/dolphinscheduler
或者运行dolphinscheduler中的部分服务
你能够运行dolphinscheduler中的部分服务。
- 创建一个 本地卷 用于资源存储,如下:
docker volume create dolphinscheduler-resource-local
- 启动一个 master server, 如下:
$ docker run -d --name dolphinscheduler-master \
-e ZOOKEEPER_QUORUM="192.168.x.x:2181" \
-e DATABASE_HOST="192.168.x.x" -e DATABASE_PORT="5432" -e DATABASE_DATABASE="dolphinscheduler" \
-e DATABASE_USERNAME="test" -e DATABASE_PASSWORD="test" \
apache/dolphinscheduler:latest master-server
- 启动一个 worker server, 如下:
$ docker run -d --name dolphinscheduler-worker \
-e ZOOKEEPER_QUORUM="192.168.x.x:2181" \
-e DATABASE_HOST="192.168.x.x" -e DATABASE_PORT="5432" -e DATABASE_DATABASE="dolphinscheduler" \
-e DATABASE_USERNAME="test" -e DATABASE_PASSWORD="test" \
-e ALERT_LISTEN_HOST="dolphinscheduler-alert" \
-v dolphinscheduler-resource-local:/dolphinscheduler \
apache/dolphinscheduler:latest worker-server
- 启动一个 api server, 如下:
$ docker run -d --name dolphinscheduler-api \
-e ZOOKEEPER_QUORUM="192.168.x.x:2181" \
-e DATABASE_HOST="192.168.x.x" -e DATABASE_PORT="5432" -e DATABASE_DATABASE="dolphinscheduler" \
-e DATABASE_USERNAME="test" -e DATABASE_PASSWORD="test" \
-v dolphinscheduler-resource-local:/dolphinscheduler \
-p 12345:12345 \
apache/dolphinscheduler:latest api-server
- 启动一个 alert server, 如下:
$ docker run -d --name dolphinscheduler-alert \
-e DATABASE_HOST="192.168.x.x" -e DATABASE_PORT="5432" -e DATABASE_DATABASE="dolphinscheduler" \
-e DATABASE_USERNAME="test" -e DATABASE_PASSWORD="test" \
apache/dolphinscheduler:latest alert-server
注意: 当你运行dolphinscheduler中的部分服务时,你必须指定这些环境变量 DATABASE_HOST
DATABASE_PORT
DATABASE_DATABASE
DATABASE_USERNAME
DATABASE_PASSWORD
ZOOKEEPER_QUORUM
。
如何构建一个docker镜像
你能够在类Unix系统和Windows系统中构建一个docker镜像。
类Unix系统, 如下:
$ cd path/incubator-dolphinscheduler
$ sh ./docker/build/hooks/build
Windows系统, 如下:
C:\incubator-dolphinscheduler>.\docker\build\hooks\build.bat
如果你不理解这些脚本 ./docker/build/hooks/build
./docker/build/hooks/build.bat
,请阅读里面的内容。
环境变量
Dolphin Scheduler映像使用了几个容易遗漏的环境变量。虽然这些变量不是必须的,但是可以帮助你更容易配置镜像并根据你的需求定义相应的服务配置。
DATABASE_TYPE
配置database
的TYPE
, 默认值 postgresql
。
注意: 当运行dolphinscheduler
中master-server
、worker-server
、api-server
、alert-server
这些服务时,必须指定这个环境变量,以便于你更好的搭建分布式服务。
DATABASE_DRIVER
配置database
的DRIVER
, 默认值 org.postgresql.Driver
。
注意: 当运行dolphinscheduler
中master-server
、worker-server
、api-server
、alert-server
这些服务时,必须指定这个环境变量,以便于你更好的搭建分布式服务。
DATABASE_HOST
配置database
的HOST
, 默认值 127.0.0.1
。
注意: 当运行dolphinscheduler
中master-server
、worker-server
、api-server
、alert-server
这些服务时,必须指定这个环境变量,以便于你更好的搭建分布式服务。
DATABASE_PORT
配置database
的PORT
, 默认值 5432
。
注意: 当运行dolphinscheduler
中master-server
、worker-server
、api-server
、alert-server
这些服务时,必须指定这个环境变量,以便于你更好的搭建分布式服务。
DATABASE_USERNAME
配置database
的USERNAME
, 默认值 root
。
注意: 当运行dolphinscheduler
中master-server
、worker-server
、api-server
、alert-server
这些服务时,必须指定这个环境变量,以便于你更好的搭建分布式服务。
DATABASE_PASSWORD
配置database
的PASSWORD
, 默认值 root
。
注意: 当运行dolphinscheduler
中master-server
、worker-server
、api-server
、alert-server
这些服务时,必须指定这个环境变量,以便于你更好的搭建分布式服务。
DATABASE_DATABASE
配置database
的DATABASE
, 默认值 dolphinscheduler
。
注意: 当运行dolphinscheduler
中master-server
、worker-server
、api-server
、alert-server
这些服务时,必须指定这个环境变量,以便于你更好的搭建分布式服务。
DATABASE_PARAMS
配置database
的PARAMS
, 默认值 characterEncoding=utf8
。
注意: 当运行dolphinscheduler
中master-server
、worker-server
、api-server
、alert-server
这些服务时,必须指定这个环境变量,以便于你更好的搭建分布式服务。
DOLPHINSCHEDULER_ENV_PATH
任务执行时的环境变量配置文件, 默认值 /opt/dolphinscheduler/conf/env/dolphinscheduler_env.sh
。
DOLPHINSCHEDULER_DATA_BASEDIR_PATH
用户数据目录, 用户自己配置, 请确保这个目录存在并且用户读写权限, 默认值 /tmp/dolphinscheduler
。
DOLPHINSCHEDULER_OPTS
配置dolphinscheduler
的java options
,默认值 ""
、
RESOURCE_STORAGE_TYPE
配置dolphinscheduler
的资源存储类型,可选项为 HDFS
、S3
、NONE
,默认值 HDFS
。
RESOURCE_UPLOAD_PATH
配置HDFS/S3
上的资源存储路径,默认值 /dolphinscheduler
。
FS_DEFAULT_FS
配置资源存储的文件系统协议,如 file:///
, hdfs://mycluster:8020
or s3a://dolphinscheduler
,默认值 file:///
。
FS_S3A_ENDPOINT
当RESOURCE_STORAGE_TYPE=S3
时,需要配置S3
的访问路径,默认值 s3.xxx.amazonaws.com
。
FS_S3A_ACCESS_KEY
当RESOURCE_STORAGE_TYPE=S3
时,需要配置S3
的s3 access key
,默认值 xxxxxxx
。
FS_S3A_SECRET_KEY
当RESOURCE_STORAGE_TYPE=S3
时,需要配置S3
的s3 secret key
,默认值 xxxxxxx
。
ZOOKEEPER_QUORUM
配置master-server
和worker-serverr
的Zookeeper
地址, 默认值 127.0.0.1:2181
。
注意: 当运行dolphinscheduler
中master-server
、worker-server
这些服务时,必须指定这个环境变量,以便于你更好的搭建分布式服务。
ZOOKEEPER_ROOT
配置dolphinscheduler
在zookeeper
中数据存储的根目录,默认值 /dolphinscheduler
。
MASTER_EXEC_THREADS
配置master-server
中的执行线程数量,默认值 100
。
MASTER_EXEC_TASK_NUM
配置master-server
中的执行任务数量,默认值 20
。
MASTER_HEARTBEAT_INTERVAL
配置master-server
中的心跳交互时间,默认值 10
。
MASTER_TASK_COMMIT_RETRYTIMES
配置master-server
中的任务提交重试次数,默认值 5
。
MASTER_TASK_COMMIT_INTERVAL
配置master-server
中的任务提交交互时间,默认值 1000
。
MASTER_MAX_CPULOAD_AVG
配置master-server
中的CPU中的load average
值,默认值 100
。
MASTER_RESERVED_MEMORY
配置master-server
的保留内存,默认值 0.1
。
MASTER_LISTEN_PORT
配置master-server
的端口,默认值 5678
。
WORKER_EXEC_THREADS
配置worker-server
中的执行线程数量,默认值 100
。
WORKER_HEARTBEAT_INTERVAL
配置worker-server
中的心跳交互时间,默认值 10
。
WORKER_MAX_CPULOAD_AVG
配置worker-server
中的CPU中的最大load average
值,默认值 100
。
WORKER_RESERVED_MEMORY
配置worker-server
的保留内存,默认值 0.1
。
WORKER_LISTEN_PORT
配置worker-server
的端口,默认值 1234
。
WORKER_GROUPS
配置worker-server
的分组,默认值 default
。
WORKER_WEIGHT
配置worker-server
的权重,默认之100
。
ALERT_LISTEN_HOST
配置worker-server
的告警主机,即alert-server
的主机名,默认值 127.0.0.1
。
ALERT_PLUGIN_DIR
配置alert-server
的告警插件目录,默认值 lib/plugin/alert
。
初始化脚本
如果你想在编译的时候或者运行的时候附加一些其它的操作及新增一些环境变量,你可以在/root/start-init-conf.sh
文件中进行修改,同时如果涉及到配置文件的修改,请在/opt/dolphinscheduler/conf/*.tpl
中修改相应的配置文件
例如,在/root/start-init-conf.sh
添加一个环境变量API_SERVER_PORT
:
export API_SERVER_PORT=5555
当添加以上环境变量后,你应该在相应的模板文件/opt/dolphinscheduler/conf/application-api.properties.tpl
中添加这个环境变量配置:
server.port=${API_SERVER_PORT}
/root/start-init-conf.sh
将根据模板文件动态的生成配置文件:
echo "generate app config"
ls ${DOLPHINSCHEDULER_HOME}/conf/ | grep ".tpl" | while read line; do
eval "cat << EOF
$(cat ${DOLPHINSCHEDULER_HOME}/conf/${line})
EOF
" > ${DOLPHINSCHEDULER_HOME}/conf/${line%.*}
done