引言
大家好,数睿通 2.0 数据中台在 2026 年迎来了首次版本更新,本次升级重点围绕运维简化以及能力优化升级展开。
重点落在四件事上:
- 更通用的基础设施兼容
- 更简单的部署与环境准备
- 更顺畅的数据开发体验
- 更可预期的运行结果和权限边界
下面结合一些实现细节,系统地聊聊这次更新背后的思路。
业务库兼容扩展:新增 PostgreSQL / Kingbase 支持
过去很多自研系统都会默认以某一种数据库为主。而在实际项目中,既有历史遗留库,也有新建的云数据库,统一管理始终是个难题。
本次我们在业务库层面重点做了两件事:
业务库适配扩展:PostgreSQL / Kingbase
在原本已经支持 MySQL、达梦(DM)等业务库的基础上,本次新增对 PostgreSQL、Kingbase 的兼容支持。
同时由于 Kingbase 本身兼容 PostgreSQL 语法,平台在初始化与升级数据库时,两者可以复用同一套 SQL 脚本,减少维护成本。
对使用者来说,这意味着:
- 现有以 PostgreSQL / Kingbase 为主的系统,可以更平滑地接入数睿通数据中台;
- 新建项目可以直接选择这些数据库作为业务库,而不用担心平台侧的限制。
部署不再是门槛:系统包 + 组件包按需组合
在很多团队里,大数据相关组件(Hadoop/Hive/Flink/SeaTunnel 等)往往是分散部署的,环境搭建成本远高于业务开发本身。
本次我们围绕 Docker 提供了一整套可以按需组合的部署包:
- 一套系统级部署包:用于快速拉起数睿通数据中台及其基础依赖;
- 多套可选组件部署包:用于在需要时补充大数据能力。
具体来说:
srt-cloud-docker:主系统 Docker 部署包- 通过一个
docker-compose.yml一键启动 SRT Cloud 全套服务(含 MySQL、Redis、Nacos 等基础依赖); - 日常体验、功能验证、测试环境搭建,都可以只依赖这一个包完成。
- 通过一个
hadoop-hive-docker:Hadoop + Hive 部署包- 当你需要使用 HDFS/Hive 能力时,再按需启动这一套;
- 已内置 JDK17 + Tez 相关配置,适合 Hive on Tez 场景。
flink-docker:Flink 集群部署包- 提供独立的 Flink 集群环境,可选择具体版本镜像(如 1.18/2.0.1 的 java17 变体);
- 平台的 FlinkSQL 生产任务需要依赖 Flink 服务执行;通过一键部署包可以更方便地快速实践与验证。
- 同时一键部署包外挂了
user-lib目录,执行 FlinkSQL 时可将所需依赖 JAR 放入其中;也支持通过平台的ADD JAR(服务器 JAR 包路径)语法按需补充依赖。
seatunnel-docker:SeaTunnel Engine 部署包- 用于需要 SeaTunnel 集成/同步能力的场景;
- 支持通过脚本按需安装 2.3.11 对应的插件;同时在提交任务时兼容 JSON / HOCON 两种请求体格式。
这样的设计有两个直接好处:
- 对只需要应用层能力的团队,只用一个系统包就能快速体验和使用中台;
- 对有大数据基础设施需求的团队,可以按模块逐步启用对应组件包,而不是“一上来就部署一大坨”。
操作手册全面更新
配合本次功能演进,我们对操作手册进行了一次系统性的梳理与更新:
- 重新整理了功能结构与导航;
- 为关键场景补充了步骤示例与注意事项;
- 对新引入的能力增加了独立章节说明。
版本适配升级:Flink 1.18/2.0.1 与 SeaTunnel 2.3.11
1. Flink 升级:兼容 JDK 17,享受新版本特性
数据生产模块升级到可以兼容 JDK 17 的 Flink 1.18,并完成对 Flink 2.0.1 的支持适配。
这次升级的核心在于“打通基础设施”,让作业可以运行在更新的 Flink 集群上:
- 你的 FlinkSQL 可以利用新版本提供的更多函数和优化能力;
- 在算子链、状态管理、Checkpoint 等方面,可以受益于社区在新版本中的改进;
- 平台自身的作业定义方式保持稳定,更多是“享受新版本带来的红利”,而不是要求你重学一套平台语法。
2. SeaTunnel:REST API V2 与 HOCON/JSON 请求体
SeaTunnel 侧升级到 REST API V2,适配 2.3.11,在保持稳定的同时,提交作业时:
- 同时支持 JSON 和 HOCON 两种配置体;
- 与官方文档和示例保持一致,尤其是大量使用 HOCON 的示例可以直接复用;
- 对于习惯用 JSON 的用户,也可以继续使用 JSON 表达配置,不再需要手工转换。
数据合并:从代码拼接到 SQL 引擎驱动
很多实际场景都存在“多表合并”的需求,比如:
- 学生信息表与成绩表的关联;
- 多渠道订单的汇总;
- 维度与事实数据的拼接。
早期版本的数据合并组件更多依赖代码层面的拼接逻辑,随着场景复杂度提升,这种方式在维护和行为一致性上都逐渐吃力。本次我们对其中的 JOIN 能力做了一个关键调整:
将 JOIN 统一改为使用 SQL 引擎实现。
在实现层面,我们在内存中构建轻量级 SQL 引擎环境,将各个来源的数据以临时表方式挂载,再使用标准 SQL 完成:
- INNER / LEFT / RIGHT JOIN;
- 字段映射与重名字段处理。
而 UNION / APPEND 仍保持原有实现方式:它们本身逻辑更直观,主要用于数据的纵向/横向追加。
这样做有几个直接好处:
- 行为完全“SQL 化”,更接近大家熟悉的数据库操作思维;
- 对复杂关联关系、字段映射等需求,表达能力更强;
- 出问题时可以直接查看生成的 SQL,便于定位逻辑问题。
同时,我们移除了 FULL JOIN 这种在部分引擎中并不完全兼容的写法,避免了“界面上能选、后台却不一定可靠”的情况,让选项与实际能力保持一致。
数据接入:一个选项,让汇总表维护简单很多
在做数据汇总时,一个很常见的诉求是:
- 有些目标表希望在每次同步前清空,再一次性写入新的全量数据;
- 有些目标表则更希望做增量或累积。
本次我们在同步任务中新增了一个十分实用的开关:
- “是否清空目的表”选项。
通过这个选项,你可以:
- 对用于报表展示或中间层汇总的表,选择“清空后再写入”,确保数据始终是当前周期的完整快照;
- 对只允许追加的表,关闭清空选项,避免误删历史数据。
这个看似简单的改动,实际上把“同步策略”这个重要决策显性化了,降低了误操作的风险。
权限扩展到“数据生产”场景
数睿通数据中台的数据权限体系,长期以来已经覆盖了多个关键模块:
- 数据集成 — 贴源数据;
- 数据集成 — 数据填报(录入 / 查询);
- 数据开发 — 数据表;
- 数据治理 — 数据标签 — 即席查询;
- 数据服务 — API 目录(SQL 查询结果)。
在这些模块中,权限控制围绕角色提供了更完整的“数据安全”能力:
- 表级访问控制:禁止访问 / 只读 / 读写;
- 字段级细粒度控制:可按字段设置禁止访问、明文访问或脱敏访问,并可关联脱敏规则(掩码、替换、加密、哈希等)与安全等级。
- 本次升级的重点是:让“数据开发 — 数据生产(SQL 生产任务)”也具备同样的权限能力与执行拦截:
- SQL 生产任务在执行前,会结合角色、表级权限与字段级策略,做一致的权限校验;
- 对禁止访问、只读等不符合策略的写入/访问行为,会在执行前阻断,并返回清晰的权限提示。
这样,数据生产模块与其它模块在权限行为上实现统一,角色权限配置可以“一处维护,全局生效”,同时也降低了误操作和越权带来的风险。
让问题更少,也更好排查
除了上面提到的主要更新,本次也补齐了一些体验和兼容性细节:
- 长 SQL 在日志与结果中的展示做了溢出与换行优化,查看更直观;
- 增加 SQL 解析兜底能力(JSqlParser),用于列血缘、预检查等场景;
- 修复了若干系统已知问题,提升稳定性与可用性。
结语
数睿通 2.0 数据中台的这一轮更新,并不是为了“看起来更新了很多功能”,而是希望在真实的项目场景中,让您和您的团队:
- 更快把环境搭起来:系统包 + 组件包按需组合,一键跑通核心流程;
- 更顺畅地接入业务系统:业务库新增 PostgreSQL / Kingbase 兼容支持;
- 更放心地把作业跑起来:Flink 1.18/2.0.1 与 SeaTunnel 2.3.11 完成适配;
- 更有底气把平台开放给更多业务角色使用:表/字段级权限与脱敏策略覆盖到数据生产。
欢迎在实践中持续给我们反馈,你遇到的每一个问题和想法,都会成为平台下一次迭代的起点。
以上便是本次更新的主要内容了,这些改进都来源于用户的实际需求和反馈。我们希望通过持续的产品优化,为大家提供更加实用、稳定的数据中台解决方案。
感兴趣的朋友请关注公众号 螺旋编程极客 加入星球,我们一起成长,一起进步。