聊一聊:我眼中的数据中台
本文最后更新于:2025年1月12日 凌晨
最近的两份工作基本都是围绕数据中台
展开,因此这里复盘一下,一个数据应用开发人员眼中的数据中台全景。
数据中台的诞生,是为了解决企业中各个系统烟囱林立的问题。数据中台是指通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径。数据中台把数据统一之后,会形成标准数据,再进行存储,形成大数据资产层,进而为客户提供高效服务。
这些服务跟企业的业务有较强的关联性,是这个企业独有的且能复用的,它是企业业务和数据的沉淀,其不仅能降低重复建设、减少烟囱式协作的成本,也是差异化竞争优势所在。
广义的数据中台包括了数据技术,比如对海量数据进行采集、计算、存储、加工的一系列技术集合,今天谈到的数据中台包括数据模型,算法服务,数据产品,数据管理等等,和企业的业务有较强的关联性,是企业独有的且能复用的,比如企业自建的2000个基础模型,300个融合模型,5万个标签。它是企业业务和数据的沉淀,其不仅能降低重复建设,减少烟囱式协作的成本,也是差异化竞争优势所在。
架构
数据汇聚
**数据汇聚存储是数据中台的核心技术能力之一。**数据中台针对不同的业务数据类型、业务系统技术架构,设计不同的数据采集策略、数据同步规范、数据质量控制规范、数据存储方案等,实现业务中台数据、应用系统数据的集成汇聚。
结构化数据采集存储
来自信息系统、文本文件、API 服务等结构化数据仍然是数据中台主要的数据来源,这类数据通过采集被存储在 Oracle 等关系型数据库、或者 Greenplum MPP 数据库中,以便提供数据的深度分析与应用。对时效性不敏感的数据,一般可以选择 T+1 模式来批量抽取数据,对于部分时效要求高的表,可以采用实时同步的方式。根据数据应用场景的不同,决定明细数据是直接加载,还是在 ETL 服务器上汇总后再加载入库。
T+1 数据同步场景:常规业务场景下,数据抽取频率为每天一次,也可以根据需要设置为按分钟、按小时进行批量数据同步。维度表单表数据量较小,时效要求中等,采用全量同步方案,每次抽取清空历史数据,然后全量加载。事实表数据量大,时效要求中等,采用增量更新方案,通过时间戳和业务标识识别增量数据。
实时数据同步场景对于事实表单数据量较大,时效要求高的数据,采用实时同步方案。每次源数据发生增删改除等操作时,自动读取数据库的操作日志,将改变的数据同步到数据中台的同名表中。
IoT系统数据采集方案
越来越多的数据项目涉及到了物联设备的数据应用,针对 Iot 等数据的采集,数据中台也提供了针对性的解决方案。
数据中台 IoT 接入涉及 Kafka 消息队列集群,大数据存储组件,数据计算单元和数据展示单元。IoT 数据通过数据计算,支持数据模型的深度应用,例如利用机器学习技术判断设备运行状态等数据分析场景。
IoTDB 由于其轻量级的结构、高性能和可用的特性,以及与 Hadoop 和 Spark 生态的无缝集成,满足了工业 IoTDB 领域中海量数据存储、高吞吐量数据写入和复杂数据分析的需求。可以提供数据收集、存储和分析等特定的服务。
非结构化数据采集存储
非结构化数据包含视频、音频、图片、日志文件、备份数据和容器/虚拟机镜像等不同类型,并且一个对象文件可以是任意大小,从几 kb 到最大 5T 不等,存量数据较大,同时数据的增量也较快。
数据湖针对此类非结构化数据,采用 Minio 存储源文件,Mysql 存储对应的数据元信息的解决方案,便于管理。
Minio 是兼容亚马逊 S3 云存储服务接口的对象存储服务,非常适合于存储大容量非结构化的数据。而元信息与源文件是同一生命周期的,需要在同一事务中添加或者删除。
从成本角度考虑,有文件入湖和索引入湖两种方案可以选择:
索引入数据中台——视频、音频文件、图片数据只将索引数据采用定时抽取的方式同步入数据中台,数据保留在原始物理存储位置不变。
文件入数据中台——视频、音频文件,或保存在数据库中图片数据可以采用 T+1 定时抽取的方式同步数据,数据抽取到数据湖中进行存储。
数据开发
数据开发平台,实际上也可以看做一个机器学习的工作平台,就是伴随着AI工程化落地而来的概念,就是经过一系列的工程手段,最终集成落地到具体的应用中;或者选择合适的模型和算法,经过一些优化,使得它能解决现实世界中真实的问题,并产生我们所需要的价值。
- 数据接入:支持多种类型数据的接入,包括音频、文本、图片、视频。
- 数据准备:包括数据清洗和数据探索,在数据清洗环节,机器学习平台一般具备数据融合、数据缺失处理、数据分类、打标签、数据异常处理、数据平滑等功能,在数据探索环节,机器学习平台具备单变量统计、多变量统计、聚类分析、相似度度量、密度检验等功能。
- 特征工程:支持特征构建、特征选择、特征降维、特征编码等特征工程必备流程,同时提供可视化的特征重要性评估功能,使用户可以快速发现模型中存在的问题。
- 模型训练:支持Notebook;模型建立后,平台提供可视化超参调整、超参搜索等功能,提高模型训练的效率。
- 模型部署:通过API接口,一键实现模型从开发环境到生产环境的部署,实现模型快速上线。
- 模型管理:模型部署到生产环境后仍需要进行监控和管理,以保证模型的准确率和及时更新,模型管理能够将生产环境中的模型与基线或之前的模型进行对比,确定模型效果。此外,很多平台还提供指标跟踪工具,提高模型效果的评估效率。
总结
数据中台的触发点是美好的,作为数据密集型系统,数据的统一管理带来的收益更是巨大的。然而数据中台在企业中落地,实际上是难度很大,打破业务之间的壁垒、去除各部门对业务数据的垄断,如果没有自上而下的利益驱动,困难重重。