平台介绍
全新数睿通数据中台,目前平台已初步具备了拉数和造数的能力,结合 Flink 实时计算,Hadoop Yarn 运维管理实现数据赋能,让数据产生价值。平台部署指南,讲解视频,源码 等请于文末获取。
功能模块介绍
目前全局管理,应用管理,日志管理,系统管理,数据集成,数据开发几大模块已基本完毕。
-
数据集成
- 数据库管理 — 管理用户添加的数据源,支持 MYSQL/ORACLE/SQLSERVER/POSTGRESQL/GREENPLUM/MARIADB/DB2/DM/OSCAR/KINGBASE8/OSCAR/GBASE8A/HIVE/SQLITE3/SYBASE,支持库表查询,测试连接等
- 文件管理 — 管理用户上传的文件数据
- 数据接入 — 接入外部数据源的数据到中台 ODS 层,也可自定义接入目的端数据源,支持一次性全量同步和周期性增量同步;可自定义表名,字段名的映射规则,支持正则表达式匹配;支持查看执行记录及详细执行结果,可查看同步的数据量,数据大小,成功表数量,失败表数量,成功信息,失败信息,也可查看具体每张表同步的数据量,数据大小,错误信息等,帮助用户全面掌握数据接入的执行情况
- 贴源数据 — 查看接入到ods层的数据表和数据,可查看每张表的同步记录
-
数据开发
- 数据生产 — 对数据进行作业代码化编辑,自行 DDL 建模,运行,调试等
- 调度中心
- 调度管理 — 对生产作业进行流程编辑,可视化调度
-
调度记录 — 查看调度结果,日志等
- 运维中心 — 对作业执行运维管理
- 资源中心
- Flink 集群实例 — 管理 FLink 资源
- Hadoop 集群配置 — 管理 Hadoop 资源
- 配置中心 — 管理 FlinkSql 执行配置
-
数据治理
- 元数据
- 元模型 — 描述元数据的元数据,主要定义了元数据的属性,通常元模型都是系统内置的,如表元模型,字段元模型等
- 元数据采集 — 根据定义的元模型对元数据进行采集,通常是每一种元模型有自己内置的采集逻辑,可以设置采集周期等
- 元数据管理 — 对采集的元数据进行查看和管理
- 数据血缘 — 通过数据接入,数据生产流程之间的关系自动构建数据血缘关系图,追溯数据流向,使用 neo4j 图数据库构建
-
数据资产
- 资源管理 — 自定义资源目录,在每个目录下自定义资源,挂在数据库,api等
- 资产总览 — 对中台资源做一个总的统计概览
-
数据服务
- API 管理 — 用户自定义API,对外提供服务
- 数据可视化 — 支持对数据进行图表,大屏等的可视化
-
数据集市
- 资源目录 — 中台资源目录以及目录下资源的查看,可对资源进行申请操作
- API 目录 — 中台 API 目录以及目录下 API 的查看,可对 API 进行申请
- 我的申请 — 可以查看自己的申请记录,审批结果
- 服务审批 — 管理员对其他角色的申请做出审批,若审批通过,申请人便可以收到审批通过的消息,使用自己申请的服务资源
-
全局管理
- 数据项目管理 — 中台项目的管理,每个项目下可以关联用户,用户只能查看自己关联的项目下的数据,所有的模块数据都会有所属项目
- 数仓分层展示 — 对中台数仓的分成做展示说明
-
应用管理
- 消息管理
- 短信平台 — 集成短信平台,支持阿里,腾讯等常用的短信平台
- 短信日志 — 调用短信所产生的日志
-
日志管理
- 登录日志 — 系统登录产生的日志
-
系统管理
- 用户管理 — 对系统用户进行管理
- 菜单管理 — 对系统菜单进行管理,用于实现动态菜单
- 定时任务 — 可自定义定时任务,调度执行
- 数据字典 — 系统的字典数据
- 机构管理 — 机构数据,若各模块中的数据有所属机构概念,可用于数据权限管理
- 岗位管理 — 岗位的管理
- 角色管理 — 角色管理,可以为每个角色自定义菜单查看权限以及机构级的数据权限
- 附件管理 — 系统附件管理,可以上传下载
界面展示
数据库管理
数据库管理模块可以自己新增和管理数据源,目前支持的数据源多达十几种,主要是常用的关系型数据库,日后考虑扩展 NoSql 数据库:
文件管理
文件管理模块可以上传下载文件:
数据接入
数据接入模块可以自定义 ETL 任务,支持表名和字段映射,同步数据源数据到指定数据库或中台库,支持调度执行:
贴源数据
贴源数据可以查看通过数据接入同步的数据表,数据以及接入日志
数据生产
数据生产模块可以进行 Sql 和 FlinkSql 的代码化开发,支持联系上下文的 sql 校验,并且全面接管 FlinkSql 的历史任务,日志监控等,让 FlinkSql 开发纵享丝滑。
sql 作业开发
sql 作业开发可以自行编写 sql 语句,数据源可以选择自己维护的数据源或者中台库。
FlinkSql 作业开发
FlinkSql 作业支持 sql-client 所具备的全部功能,同时加强了语法,可以使用 := 来定义全局变量,通过 ADD JAR 添加本地 jar 包,防止依赖包过多导致依赖冲突,支持 local(本地),standalone(flink实例集群),yarn-session,yarn-per-job 和 yarn-application 模式执行 job 任务。
若想要实时同步数据,可以使用 flink-cdc 来进行数据的实时同步操作,FlinkSql 作业开发会在视频中详细讲解。
调度中心
调度中心可以对作业任务进行拖拽流程设计,同时支持设置节点权重,支持定时执行流程,流程图中可以根据实际业务结合 Sql 和 FlinkSql 作业,更加灵活的操作处理数据。
调度记录可以查看调度日志,可以查看总体和每个节点的执行情况。
运维中心
运维中心可以查看作业的执行记录,如果是 FlinkSql 作业,会实时更新 FlinkSql 实例的状态,并且支持对作业进行 savepoint,实现断点续传,查看执行结果,错误日志等。
资源中心
资源中心主要用于管理 Flink 实例 和 Hadoop 集群,平台本身不依赖 Flink 或 Hadoop 就可以正常启动,但如果要运行 FlinkSql 任务,则需要配置 Flink 集群,Yarn 模式下则需要配置 Hadoop 集群。
配置中心
配置中心主要用于配置 FlinkSql 执行所需的参数,视频中会讲解,在此不做赘述。
其他模块
其他模块就不再一一介绍了,这两个多月主要是完成了数据集成和数据生产两个大的模块,同时也实现了多租户管理,不同的租户之间实现了数据隔离,互不影响。
结语
本次中台的新功能介绍就到此结束了,现在平台更像一个数据开发平台,这也是数据中台的一个重要组成部分,其实数据中台主要是三个核心:数据集成抽取数据,数据开发加工数据,数据服务提供数据,除此之外,用户可以根据自身需求,自行扩展功能模块,结合业务,打破数据壁垒,实现数据赋能,让数据产生价值。
服务咨询
平台源码有偿开放,毕竟开发起来并不容易,收的只是一个辛苦钱,这点希望大家可以理解,以后也会推出一个开源版本,发布到 gitee 上,应该只会开源数据集成部分,这是目前的一个构想。
想要 最新源码,快速部署指南,部署包,使用讲解视频,源码讲解视频 的朋友可以关注公众号 螺旋编程极客 获取。
怎么获取源码,公众号上也获取不了
在公众号加入知识星球可以获取全部最新源码以及后续更新
也可以加我微信 L1243462058 单独获取