DataSphere Studio(DSS)是一个数据应用集成平台的开源方案,已集成scriptis数据开发IDE,davinci可视化报表,和qualitis数据质量。
另外dss最强的是支持采用DAG工作流将上述组件进行可视化调度编排,目前调度系统支持接入azkaban和airflow,也可自行集成其他调度系统,调度任务底层的作业执行引擎可接入linkis计算中间件;
本文主要的关注点是dss的组件构成,以及dss和linkis的组件交互;
dss组成

系统组成
dss-server:通过第三方系统的appjoint-sdk实现和元数据同步(如project);dss-flow-execution-entrance:工作流实时执行时的dag解析,补充,优化后调用linkis-ujes-client执行;linkis-appjoint-entrance:linkis的第三方系统的执行入口;- 调度系统内部dag解析后,通过调用
linkis-ujes-client提交任务到ujes执行; - 其他第三方系统(如visualis)除了会调用
linkis-ujes-client提交任务到ujes执行,在实时任务执行时,appjoint-entrance也调用第三方服务鉴权和执行任务;
- 调度系统内部dag解析后,通过调用
dss和linkis交互

2种作业类型
- appjoint类任务:通过自行实现的appjoint-sdk,调用第三方系统执行,第三方系统再接入linkis-ujes;
- workflow类任务:用于实时执行的,从dss读取dag信息,然后解析dag依赖,调用linkis-client进行执行任务节点。