- 创建者: 虚拟的现实,上次更新时间:10月 14, 2023 需要 1 分钟阅读时间
1.前言
数据是资源,伴随着大数据时代支撑数据交换共享和数据服务应用的技术发展,不断积淀的数据开始逐渐发挥它的价值,数据作为一项资产,“盘活”数据以充分释放其附加价值。为了促进XXX数据标准与质量的统一,打破数据孤岛,加强数据融合共享应用,丰富数据源种类与丰富程度,评估数据成本与业务贡献度,特制定本条例。
2.数据资产定义
数据资产(Data Asset)是指由企业拥有或者控制的,能够为企业带来未来经济利益的,以物理或电子的方式记录的数据资源,如文件资料、电子数据等。
对XXX而言,业务产生的需求文档、设计文档、算法逻辑、数据文件、日志、图像、音频、第三方已付费数据等均属于数据资产,XXX控股对数据资产拥有所属权,任何人或机构未经XXX总公司授权不得私自使用、占有、传播数据资产。
零方数据资产部是XXX数据资产唯一管理方,具有对数据资产制定各项标准制度、流程与维护数据资产安全等义务,协助XXX各分子公司高效利用数据,对XXX体系外提供数据服务,促进数据资产应用标准互通、跨平台互用、数据价值交换等。
3.数据资产管理目标
统一数据视图:将数据统一标准化收集至数据仓库,并提供标准的数据字典供业务查阅。
丰富数据地图:将不同来源的数据进行标准化、结构化入仓,按照不同主题丰富数据应用范围。
提供高质量数据:清除或修正异常数据,对数据全生命周期进行监控与管理。
实现互联互通:建立数据使用标准与共享制度,通过开放平台实现企业内数据高效共享。
提高获取效率:通过机器学习等自动化技术,缩短数据分析人员与数据科学家数据准备时间,加快数据价值释放过程。
保障安全合规:制定完善数据安全策略,建立体系化数据安全措施,执行数据安全审计,全方位进行安全管控。
4.数据资产管理范围
4.1 数据标准
标准分类:数据分为分析维度、时间维度、统计指标与描述四类。
标准内容:分析维度一般左右不含空格,一般不存储null值而存储字符空或字符NULL,一般不存储ASC在[\u0001-\u001F]范围内字符,大小写字母敏感,一般应采用大写字母。
- 时间维度一般采用yyyy-MM-dd HH:mm:ss结构,对于时间为null的,一般默认填充 1997-06-21 00:00:00,对于有条件的系统建议采用时间戳存储数据。
- 统计指标一般采用整数或4位小数,对于经纬度等特殊信息,采用12位小数。建议采用扩增10000倍的整数存储数据,避免数据误差。
- 描述一般采用不超过8000个字符进行存储。
- 所有数据均不得采用null值作为数据含义的表达,宜采用默认值代替null。对于分析维度一般采用特定字段,时间维度宜采用固定时间值,统计指标宜采用0或极值,描述宜采用字符串空''。
4.2 标准数据命名
针对同一系统,分析维度采用统一命名,如A表中的vendorid与B表中的vendorid是相同含义。
针对大数据仓库,分析维度需要按照业务类型进行单独标记,可以通过目录或表命名实现。 在数据集市层中,按照集市类型统一命名。
4.3 数据权限划分与管理
各系统与数据仓库宜采用最小权限原则开通访问账户,严格控制程序、存储过程等访问权限,严格控制具备写入与修改的账户权限。
针对项目应采用独立账户进行区分,可按账户设立访问时间、调度资源等权限限制。禁止多项目共用同一账户。
针对具有查询、导出等权限的账户,应建立日志追踪确保数据访问的可追溯性,禁止直接通过数据库进行数据导出的行为。
数据权限变更应提交流程申请执行。
数据人员往往具备较高权限,应按照业务场景实现权限区隔,如某个数据人员负责广东、某个数据人员负责华中,避免同一数据人员拥有全部数据权限,针对数据导出应设立专人专岗并配备相应流程规范。
业务人员应按照业务场景实现权限区隔,并通过交互工具进行数据查询或导出。
运维人员应做好专人专岗,禁止使用数据库开发工具查看数据库与修改,禁止直接改动数据库\表避免引发后续业务问题,所有改动均需要通过流程审核并告知干系人。
大数据人员与开发人员不得对外透露底层数据结构,不得告知数据缓存逻辑。
4.4 数据收集
系统与接口日志原则上不留存于主业务数据库,可存储于日志数据库或EFLK统一日志处理系统中。
业务数据可采用消息队列作为数据源入口,但需通过技术手段确保数据完整与一致性。
第三方数据需要通过数据平台标准接口接入,以促进面向全产业链的标准数据按需使用。
4.5 数据库模型
数据库模型是现实世界数据特征的抽象,用于描述一组数据的概念和定义。数据库模型从抽象层次上描述了数据的静态特征、动态行为和约束条件。数据库模型所描述的内容有三部分:数据结构、数据操作(其中 ER 图数据模型中无数据操作)和数据约束,形成数据结构的基本蓝图,也是企业数据资产的战略地图。数据库模型按不同的应用层次分成概念数据模型、逻辑数据模型、物理数据模型三种类型。
4.5.1 概念模型
是一种面向用户、面向客观世界的模型,主要用来描述现实世界的概念化结构,与数据库管理系统无关。
一般情况下,产品部门对于业务场景的描述、需求等均属于概念模型。
4.5.2 逻辑模型
是一种以概念模型的框架为基础,根据业务条线、业务事项、业务流程、业务场景的需要,设计的面向业务实现的数据模型。逻辑模型可用于指导在不同的 DBMS 系统中实现。逻辑数据模型包括网状数据模型、层次数据模型等。
一般情况下,技术部门对需求的技术实现方案属于逻辑模型。
4.5.3 物理模型
是一种面向计算机物理表示的模型,描述了数据在储存介质上的组织结构。物理模型的设计应基于逻辑模型的成果,以保证实现业务需求。它不但与具体的 DBMS 有关,而且还与操作系统和硬件有关,同时考虑系统性能的相关要求。
一般情况下,技术部门的详细设计方案及其维护升级方案属于物理模型。
4.5.4 数据库模型管理
是指在信息系统设计时,参考业务模型,使用标准化用语、单词等数据要素来设计企业数据模型,并在信息系统建设和运行维护过程中,严格按照数据模型管理制度,审核和管理新建数据模型,数据模型的标准化管理和统一管控,有利于指导企业数据整合,提高信息系统数据质量。
需要做到以下几点
- 定义和分析企业数据需求
- 定义标准化的业务用语、单词、域、编码等
- 设计标准化数据模型,遵循数据设计规范
- 制定数据模型管理办法和实施流程要求
- 建设数据模型管理工具,统一管控企业数据模型
具体参考《数据库运维管理规范》、《数据库开发管理规范》执行。
4.6 元数据管理
元数据是描述数据的数据。元数据按用途不同分为技术元数据、业务元数据和管理元数据。
4.6.1 技术元数据
描述数据系统中技术领域相关概念、关系和规则的数据;包括数据平台内对象和数据结构的定义、源数据到目的数据的映射、数据转换的描述等;
4.6.2 业务元数据
描述数据系统中业务领域相关概念、关系和规则的数据;包括业务术语、信息分类、指标、统计口径等;
4.6.3 管理元数据
描述数据系统中管理领域相关概念、关系、规则的数据,主要包括人员角色、岗位职责、管理流程等信息。
4.6.4 元数据管理
元数据管理的内容可以从以下六个角度进行概括,即“向前看”:“我”是谁加工出来的; “向后看”: “我”又支持了谁的加工; “看历史”:过去的“我”长什么样子;“看本体”:“我”的定义和格式是什么;“向上看”:“我”的父节点是谁;“向下看”:“我”的子节点是谁。
元数据管理的关键活动包括
- 理解企业元数据管理需求
- 开发和维护元数据标准
- 建设元数据管理工具
- 创建、采集、整合元数据
- 管理元数据存储库
- 分发和使用元数据
- 元数据分析(血缘分析、影响分析、数据地图等)
4.7 主数据管理
主数据是指用来描述企业核心业务实体的数据,是企业核心业务对象、交易业务的执行主体。
主数据管理是一系列规则、应用和技术,用以协调和管理与企业的核心业务实体相关的系统记录数据。
主数据管理的关键活动包括
- 理解主数据的整合需求
- 识别主数据的来源
- 定义和维护数据整合架构
- 实施主数据解决方案
- 定义和维护数据匹配规则
- 根据业务规则和数据质量标准对收集到的主数据进行加工清理
- 建立主数据创建、变更的流程审批机制
- 实现各个关联系统与主数据存储库数据同步
- 方便修改、监控、更新关联系统主数据变化
4.8 数据算法模型
数据算法模型是指为达成指定的业务目标,通过对数据的加工、训练与评估后,形成数字指标并应用于业务系统的数据模型。
数据算法模型自算法逻辑通过XXX数据,形成纸质、电子文档或数据算法模型起,便受数据资产管理保护。
其应用与优化需经流程审核与审批。
未经XXX数据主管部门允许,任何人不得私自透漏、泄露、传递、保存数据算法模型资料。
第三方提供的数据算法模型,除经特别审批的黑盒项目,均需要第三方提供源码与设计文件,特别是涉及XXX主营业务应用的数据算法模型必须提供。
数据算法模型既可以通过模型文件嵌入至流式数据中,也可以通过定期计算指标结果表进行应用。
推荐采用python数据算法模型或PMML标准模型文件,以便维护标准的统一。
5 数据质量管理
数据质量评价指标
- 完整性:数据是否有缺失
- 规范性:数据是否按照要求规则存储
- 一致性:数据的值与信息含义是否存在冲突
- 准确性:数据是否存在错误
- 唯一性:数据是否是重复的
- 时效性:数据是否按照时间要求上传
数据质量管理关键步骤
- 开发和提升数据质量意识
- 定义数据质量需求
- 剖析、分析和评估数据质量
- 定义数据质量测量指标
- 定义数据质量业务规则
- 测试和验证数据质量需求
- 确定与评估数据质量服务水平
- 持续测量和监控数据质量
- 管理数据质量问题
- 分析产生数据质量问题的根本原因
- 制定数据质量改善方案
- 清洗和纠正数据质量缺陷
- 设计并实施数据质量管理工具
- 监控数据质量管理操作程序和绩效
6 数据安全管理
数据安全管理是指对数据设定安全等级,按照相应国家/组织相关法案及监督要求,通过评估数据安全风险、制定数据安全管理制度规范、进行数据安全分级分类,完善数据安全管理相关技术规范,保证数据被合法合规、安全地采集、传输、存储和使用。企业通过数据安全管理,规划、开发和执行安全政策与措施,提供适当的身份以确认、授权、访问与审计等功能。
数据安全管理的关键活动包括
- 理解数据安全需求及监管要求
- 定义数据安全策略
- 定义数据安全标准
- 定义数据安全控制及措施
- 管理用户、密码和用户组成员
- 管理数据访问视图与权限
- 监控用户身份认证和访问行为
- 定义数据安全强度,划分信息等级
- 部署数据安全防控系统或工具
- 审计数据安全
7 数据价值管理
数据价值管理是对数据内在价值的度量,可以从数据成本和数据应用价值两方面来开展。
数据成本一般包括采集、存储和计算的费用(人工费用、IT 设备等直接费用和间接费用等)和运维费用(业务操作费、技术操作费等)。
数据成本管理从度量成本的维度出发,通过定义数据成本核算指标、监控数据成本产生等步骤,确定数据成本优化方案,实现数据成本的有效控制。
数据价值(收益)主要从数据资产的分类、使用频次、使用对象、使用效果和共享流通等方面计量。
数据价值(收益)管理从度量价值的维度出发,选择各维度下有效的衡量指标,对针对数据连接度的活性评估、数据质量价值评估、数据稀缺性和时效性评估、数据应用场景经济性评估,并优化数据服务应用的方式,最大可能性的提高数据的应用价值。
8 数据共享管理
数据共享管理主要是指开展数据共享和交换,实现数据内外部价值的一系列活动。
数据共享管理包括数据内部共享(企业内部跨组织、部门的数据交换)、外部流通(企业之间的数据交换)、对外开放。
数据内部共享的关键步骤是打通企业内部各部门间的数据共享瓶颈,建立统一规范的数据标准与数据共享制度,数据外部流通和对外开放可以通过数据直接交易与提供数据分析信息的两种方式实现,将数据中符合共享开放层级的信息作为应用商品,以合规安全的形式完成共享交换或开放发布。
数据共享管理的关键活动包括
- 定义数据资产内部共享和运营流通监控指标
- 设计数据资产内部共享和运营流通管理方案
- 制定数据资产内部共享和运营流通管理办法和实施流程要求
- 监控数据资产内部共享和运营实施
- 监督落实数据内部共享与外部流通等合规性管理要求
- 分析内部共享与运营流通指标,评价运营效果并改进
9 数据管理制度体系
数据管理制度体系包括管理办法、管理流程、技术规范与模板三部分组成
9.1 管理办法
《XXX数据资产安全产品、技术与行为指引》
《数据库运维管理规范》
《数据库开发管理规范》
《数据库备份策略》
9.2 管理流程
《数据库流程管理规定》
《XXX数据安全流程管理规定》
《数据算法模型流程管理规定》
9.3 技术规范与模板
《数据库安装手册》
《数据库监控手册》
《数据库管理脚本模板》
《数据库背景调查模板》
《XXX数据保护技术规范》
《XXX数据安全行为规范》
10 数据资产管理实施
10.1 第一阶段,盘点统筹建立基础
- 制定数据管理制度体系,制定标准与落实执行
- 建立数据安全管理体系,执行数据安全管理职能
- 治理与管理主数据,明确核心业务实体数据,并进行分析验证
- 通过大数据开放平台汇总各渠道业务数据,切实建立企业数据资产管理能力
10.2 第二阶段,管理实施细化职能
- 自身存量与增量预估,支撑整体资产管理能力
- 常态化检查数据标准执行情况
- 建立良性循环、动态更新的数据质量管理流程,明确数据全生命周期各环节质量提升关键点,评估与监督数据质量服务水平
- 灵活、配置化的数据存储策略,提供最低成本存储达成最优服务。
- 常态化的数据安全检查,包括主数据系统与数据授权使用的系统的检查工作
10.3 第三阶段,资产运营价值导向
- 通过数据集成工具实现统一数据交互与安全管控
- 通过数据共享交换平台实现数据跨系统复用
- 通过数据开放平台实现第三方数据应用标准互通,交换价值
- 无标签