数据是资源,伴随着大数据时代支撑数据交换共享和数据服务应用的技术发展,不断积淀的数据开始逐渐发挥它的价值,数据作为一项资产,“盘活”数据以充分释放其附加价值。为了促进XXX数据标准与质量的统一,打破数据孤岛,加强数据融合共享应用,丰富数据源种类与丰富程度,评估数据成本与业务贡献度,特制定本条例。
数据资产(Data Asset)是指由企业拥有或者控制的,能够为企业带来未来经济利益的,以物理或电子的方式记录的数据资源,如文件资料、电子数据等。
对XXX而言,业务产生的需求文档、设计文档、算法逻辑、数据文件、日志、图像、音频、第三方已付费数据等均属于数据资产,XXX控股对数据资产拥有所属权,任何人或机构未经XXX总公司授权不得私自使用、占有、传播数据资产。
零方数据资产部是XXX数据资产唯一管理方,具有对数据资产制定各项标准制度、流程与维护数据资产安全等义务,协助XXX各分子公司高效利用数据,对XXX体系外提供数据服务,促进数据资产应用标准互通、跨平台互用、数据价值交换等。
统一数据视图:将数据统一标准化收集至数据仓库,并提供标准的数据字典供业务查阅。
丰富数据地图:将不同来源的数据进行标准化、结构化入仓,按照不同主题丰富数据应用范围。
提供高质量数据:清除或修正异常数据,对数据全生命周期进行监控与管理。
实现互联互通:建立数据使用标准与共享制度,通过开放平台实现企业内数据高效共享。
提高获取效率:通过机器学习等自动化技术,缩短数据分析人员与数据科学家数据准备时间,加快数据价值释放过程。
保障安全合规:制定完善数据安全策略,建立体系化数据安全措施,执行数据安全审计,全方位进行安全管控。
标准分类:数据分为分析维度、时间维度、统计指标与描述四类。
标准内容:分析维度一般左右不含空格,一般不存储null值而存储字符空或字符NULL,一般不存储ASC在[\u0001-\u001F]范围内字符,大小写字母敏感,一般应采用大写字母。
针对同一系统,分析维度采用统一命名,如A表中的vendorid与B表中的vendorid是相同含义。
针对大数据仓库,分析维度需要按照业务类型进行单独标记,可以通过目录或表命名实现。 在数据集市层中,按照集市类型统一命名。
各系统与数据仓库宜采用最小权限原则开通访问账户,严格控制程序、存储过程等访问权限,严格控制具备写入与修改的账户权限。
针对项目应采用独立账户进行区分,可按账户设立访问时间、调度资源等权限限制。禁止多项目共用同一账户。
针对具有查询、导出等权限的账户,应建立日志追踪确保数据访问的可追溯性,禁止直接通过数据库进行数据导出的行为。
数据权限变更应提交流程申请执行。
数据人员往往具备较高权限,应按照业务场景实现权限区隔,如某个数据人员负责广东、某个数据人员负责华中,避免同一数据人员拥有全部数据权限,针对数据导出应设立专人专岗并配备相应流程规范。
业务人员应按照业务场景实现权限区隔,并通过交互工具进行数据查询或导出。
运维人员应做好专人专岗,禁止使用数据库开发工具查看数据库与修改,禁止直接改动数据库\表避免引发后续业务问题,所有改动均需要通过流程审核并告知干系人。
大数据人员与开发人员不得对外透露底层数据结构,不得告知数据缓存逻辑。
系统与接口日志原则上不留存于主业务数据库,可存储于日志数据库或EFLK统一日志处理系统中。
业务数据可采用消息队列作为数据源入口,但需通过技术手段确保数据完整与一致性。
第三方数据需要通过数据平台标准接口接入,以促进面向全产业链的标准数据按需使用。
数据库模型是现实世界数据特征的抽象,用于描述一组数据的概念和定义。数据库模型从抽象层次上描述了数据的静态特征、动态行为和约束条件。数据库模型所描述的内容有三部分:数据结构、数据操作(其中 ER 图数据模型中无数据操作)和数据约束,形成数据结构的基本蓝图,也是企业数据资产的战略地图。数据库模型按不同的应用层次分成概念数据模型、逻辑数据模型、物理数据模型三种类型。
是一种面向用户、面向客观世界的模型,主要用来描述现实世界的概念化结构,与数据库管理系统无关。
一般情况下,产品部门对于业务场景的描述、需求等均属于概念模型。
是一种以概念模型的框架为基础,根据业务条线、业务事项、业务流程、业务场景的需要,设计的面向业务实现的数据模型。逻辑模型可用于指导在不同的 DBMS 系统中实现。逻辑数据模型包括网状数据模型、层次数据模型等。
一般情况下,技术部门对需求的技术实现方案属于逻辑模型。
是一种面向计算机物理表示的模型,描述了数据在储存介质上的组织结构。物理模型的设计应基于逻辑模型的成果,以保证实现业务需求。它不但与具体的 DBMS 有关,而且还与操作系统和硬件有关,同时考虑系统性能的相关要求。
一般情况下,技术部门的详细设计方案及其维护升级方案属于物理模型。
是指在信息系统设计时,参考业务模型,使用标准化用语、单词等数据要素来设计企业数据模型,并在信息系统建设和运行维护过程中,严格按照数据模型管理制度,审核和管理新建数据模型,数据模型的标准化管理和统一管控,有利于指导企业数据整合,提高信息系统数据质量。
需要做到以下几点
具体参考《数据库运维管理规范》、《数据库开发管理规范》执行。
元数据是描述数据的数据。元数据按用途不同分为技术元数据、业务元数据和管理元数据。
描述数据系统中技术领域相关概念、关系和规则的数据;包括数据平台内对象和数据结构的定义、源数据到目的数据的映射、数据转换的描述等;
描述数据系统中业务领域相关概念、关系和规则的数据;包括业务术语、信息分类、指标、统计口径等;
描述数据系统中管理领域相关概念、关系、规则的数据,主要包括人员角色、岗位职责、管理流程等信息。
元数据管理的内容可以从以下六个角度进行概括,即“向前看”:“我”是谁加工出来的; “向后看”: “我”又支持了谁的加工; “看历史”:过去的“我”长什么样子;“看本体”:“我”的定义和格式是什么;“向上看”:“我”的父节点是谁;“向下看”:“我”的子节点是谁。
元数据管理的关键活动包括
主数据是指用来描述企业核心业务实体的数据,是企业核心业务对象、交易业务的执行主体。
主数据管理是一系列规则、应用和技术,用以协调和管理与企业的核心业务实体相关的系统记录数据。
主数据管理的关键活动包括
数据算法模型是指为达成指定的业务目标,通过对数据的加工、训练与评估后,形成数字指标并应用于业务系统的数据模型。
数据算法模型自算法逻辑通过XXX数据,形成纸质、电子文档或数据算法模型起,便受数据资产管理保护。
其应用与优化需经流程审核与审批。
未经XXX数据主管部门允许,任何人不得私自透漏、泄露、传递、保存数据算法模型资料。
第三方提供的数据算法模型,除经特别审批的黑盒项目,均需要第三方提供源码与设计文件,特别是涉及XXX主营业务应用的数据算法模型必须提供。
数据算法模型既可以通过模型文件嵌入至流式数据中,也可以通过定期计算指标结果表进行应用。
推荐采用python数据算法模型或PMML标准模型文件,以便维护标准的统一。
数据质量评价指标
数据质量管理关键步骤
数据安全管理是指对数据设定安全等级,按照相应国家/组织相关法案及监督要求,通过评估数据安全风险、制定数据安全管理制度规范、进行数据安全分级分类,完善数据安全管理相关技术规范,保证数据被合法合规、安全地采集、传输、存储和使用。企业通过数据安全管理,规划、开发和执行安全政策与措施,提供适当的身份以确认、授权、访问与审计等功能。
数据安全管理的关键活动包括
数据价值管理是对数据内在价值的度量,可以从数据成本和数据应用价值两方面来开展。
数据成本一般包括采集、存储和计算的费用(人工费用、IT 设备等直接费用和间接费用等)和运维费用(业务操作费、技术操作费等)。
数据成本管理从度量成本的维度出发,通过定义数据成本核算指标、监控数据成本产生等步骤,确定数据成本优化方案,实现数据成本的有效控制。
数据价值(收益)主要从数据资产的分类、使用频次、使用对象、使用效果和共享流通等方面计量。
数据价值(收益)管理从度量价值的维度出发,选择各维度下有效的衡量指标,对针对数据连接度的活性评估、数据质量价值评估、数据稀缺性和时效性评估、数据应用场景经济性评估,并优化数据服务应用的方式,最大可能性的提高数据的应用价值。
数据共享管理主要是指开展数据共享和交换,实现数据内外部价值的一系列活动。
数据共享管理包括数据内部共享(企业内部跨组织、部门的数据交换)、外部流通(企业之间的数据交换)、对外开放。
数据内部共享的关键步骤是打通企业内部各部门间的数据共享瓶颈,建立统一规范的数据标准与数据共享制度,数据外部流通和对外开放可以通过数据直接交易与提供数据分析信息的两种方式实现,将数据中符合共享开放层级的信息作为应用商品,以合规安全的形式完成共享交换或开放发布。
数据共享管理的关键活动包括
数据管理制度体系包括管理办法、管理流程、技术规范与模板三部分组成
《XXX数据资产安全产品、技术与行为指引》
《数据库运维管理规范》
《数据库开发管理规范》
《数据库备份策略》
《数据库流程管理规定》
《XXX数据安全流程管理规定》
《数据算法模型流程管理规定》
《数据库安装手册》
《数据库监控手册》
《数据库管理脚本模板》
《数据库背景调查模板》
《XXX数据保护技术规范》
《XXX数据安全行为规范》