参考数据是什么意思(参考数据)

时间:2024-04-07 00:27:33 来源:网友上传 编辑:谁为谁伤

一文理解主数据和参考数据

如果你准备要开展推动数据治理或者是数据质量的项目,那么你就有可能会听说到几个词:主数据和参考数据。一开始听到主数据这一词听起来就很高大上,而且非专业人士肯定不理解(即便是从事数据行业的朋友也很难参透)。这一小节将会解答如下疑惑:

1、什么是主数据?2、主数据是干嘛用的?3、什么又是参考数据?4、参考数据又是干嘛用的?5、主数据和参考数据又有什么关系?

主数据定义

从百度百科上的定义来看主数据指的是系统间共享数据,又称基准数据,描述了组织业务中涉及到的人员、地点、事物(也就是我们常说的人货场),比如说像企业中的客户、员工、供应商相关数据、地点数据(位置、销售区域)、事物(账户、产品、资产)等都是主数据,因为这些数据往往会被多个业务流程和 IT 系统使用,而且主数据可以用来分析和推动业务流程以此来提高运营效率。

这么一讲感觉什么都懂了,但又感觉什么都没懂。

那我们从字面意思上可以理解成主要的数据,什么是主要的数据呢?在整个企业业务流程中起到关键作用,而且是比较常用的数据,在核心业务流程上产生的数据都是主数据,这么一解释可以发现主数据是可以检测企业发展是否健康的一种方式,但这么理解是有些偏差的。稍微严谨一点的定义就是主数据是整个企业中使用的核心、非交易性数据。请注意:这里指的是非交易性数据。举个例子,比如你在ERP系统中能够看到一些交易数据,比如订单产生的日期和编号、地点、金额、商品、用户、供货商、店铺之类的信息。那么这些信息中的产品、供货商、用户、地点这些都是主数据,也就是说参与到核心流程中的主体数据都是主数据,这些实体为业务交易和分析提供了上下文信息,到这里不知道你有没有稍微理解了主数据的概念呢?

当然通过该例子,有些读者可能会有疑惑,那订单交易记录又算什么呢?这里其实又扩展出来了另外一种数据类型:交易数据,也就是这些实体数据结合在一起产生了事件活动记录,那么这个记录就属于交易数据。例如通话记录、销售记录等等事件。这样看起来好像主数据是嵌入到了交易数据中了,但是主数据相对交易数据来说的话,属性是相对稳定的,而且可信度要求高,需要做到唯一识别

既然扯到了交易数据,那么这里再和另外一个名词做下对比:元数据,关于元数据的定义概念可以看万字介绍25种元数据管理解决方案(含视频,建议收藏)。在通信院发布的《主数据管理实践》中提到的了元数据和主数据的区别,小编觉得很形象,该书中提到了“元数据类似于表格的表头信息,是一个相对的概念;而主数据是从元数据中挑选出来的,代表的是企业业务运行的关键、通用性数据,是一个相对主观的概念,主数据不仅仅只是表头信息,而且还包括了实例数据”

那这里又扯到了元数据,大家可能又会和数据仓库关联起来,主数据其实和数据仓库是有些相似点的,但也不能把主数据完全等同于数据仓库。首先主数据和数据仓库都有一个共同点就是集成,因为主数据是跨业务、跨系统、跨部门的共享数据,那么就需要把各个业务系统共享的数据进行集中式管理,这样一来就减少了数据冗余,不一致的问题;那数据仓库也是针对数据进行了集成,把所有的数据都放到一个“仓库”中,供企业中所有人进行查阅(当然还是要考虑数据安全的)。这么一梳理,其实就应该发现两者之间的不同了,数据仓库是面向所有数据,也就是来者不拒,统统都收;但主数据并不是所有的数据都集成,而是那些核心的、有高度价值密度的数据才会进行集中管理。

这里还有一个数据流向和时效的区别点:对于数据仓库一般是单向的,也就是数据从业务系统入仓之后经过ETL处理后出仓用于决策分析;而主数据来源于业务系统,同时也会流回业务系统,属于双向的流转;而且数仓中的数据发生了变化,一般是T+1后才会感知到。而主数据的变化需要实时的作用于业务系统,比如客户的地址或者联系方式发生了变化,那么就必须立即同步到业务系统,否则可能会使用历史数据,影响业务服务体验。

主数据作用与特点

从开头的定义就可以了解其第一个特点:共享;主数据是跨系统、跨部门共享的数据。那么既然是共享的数据,那么就可以解决系统之间数据不一致的问题,比如说一个用户可能在多个系统之间有不同的地方信息(比如搬家了),如果各个系统使用各自的地址信息,最后肯定是会出问题的。如果各个系统统一使用最新的地址,就不需要考虑该问题了,这样在协作流程上也有所提升(其实这里需要涉及到主数据管理MDM的范畴来保证主数据的标准统一规范)。同时由于数据是共享的,对于企业来说价值是很高的了,既然是价值高的数据,命名为主数据也不为过。

从上面一句话我们可以精简一下得到两个词:共享、价值;既然这类数据是被共享的,而且是价值比较高的,那么就要保证数据质量,而且不能经常改变了(哎呦,这跟缓慢变化维有点相似),如果各个系统共享该部分数据,质量不能保障的话,整个企业发展就很危险了,而且变化很频繁的话,就加大各个系统的维护成本,而且风险性也会提高,可谓是牵一发动全身呀。

参考数据定义

DAMA数据管理知识体系指南一书中对参考数据的定义是指“可用于描述或分类其他数据,或者将数据与组织外部的信息 联系起来的任何数据”。这个定义可以说是比较抽象,简单来说就是维度数据,大家平时理解的数据字典,该类型的数据的主要作用是用来增强对数据的可读性和解释性,比如状态编码、性别、产品维表、地理信息等维度数据。由此可见,参数数据的来源可能是内部产生或者外部手动采集获取到的(比如国际标准编码、行业标准)

特点

参考数据的特点同维度表的特点,有慢维,也有快维。

参考数据和主数据的区别

主数据和参考数据一般来说就是两种不同类型的数据。1、从定义上来看主数据是代表业务对象的数据,由关键业务实体组成,它包含了整个组织共享的最有价值的信息;而参考数据是定义其他数据字段使用的一组允许的值的数据,包含了附加的文本描述,更多的像是数据字典;2、从范围上来看参考数据是主数据的一种特殊子集。下面的表格汇总了主数据和参考数据的区别:

参考资料:

中国通信院发布的《主数据管理实践1.0》DAMA数据管理知识体系指南

一文理解主数据和参考数据

如果你准备要开展推动数据治理或者是数据质量的项目,那么你就有可能会听说到几个词:主数据和参考数据。一开始听到主数据这一词听起来就很高大上,而且非专业人士肯定不理解(即便是从事数据行业的朋友也很难参透)。这一小节将会解答如下疑惑:

1、什么是主数据?2、主数据是干嘛用的?3、什么又是参考数据?4、参考数据又是干嘛用的?5、主数据和参考数据又有什么关系?

主数据定义

从百度百科上的定义来看主数据指的是系统间共享数据,又称基准数据,描述了组织业务中涉及到的人员、地点、事物(也就是我们常说的人货场),比如说像企业中的客户、员工、供应商相关数据、地点数据(位置、销售区域)、事物(账户、产品、资产)等都是主数据,因为这些数据往往会被多个业务流程和 IT 系统使用,而且主数据可以用来分析和推动业务流程以此来提高运营效率。

这么一讲感觉什么都懂了,但又感觉什么都没懂。

那我们从字面意思上可以理解成主要的数据,什么是主要的数据呢?在整个企业业务流程中起到关键作用,而且是比较常用的数据,在核心业务流程上产生的数据都是主数据,这么一解释可以发现主数据是可以检测企业发展是否健康的一种方式,但这么理解是有些偏差的。稍微严谨一点的定义就是主数据是整个企业中使用的核心、非交易性数据。请注意:这里指的是非交易性数据。举个例子,比如你在ERP系统中能够看到一些交易数据,比如订单产生的日期和编号、地点、金额、商品、用户、供货商、店铺之类的信息。那么这些信息中的产品、供货商、用户、地点这些都是主数据,也就是说参与到核心流程中的主体数据都是主数据,这些实体为业务交易和分析提供了上下文信息,到这里不知道你有没有稍微理解了主数据的概念呢?

当然通过该例子,有些读者可能会有疑惑,那订单交易记录又算什么呢?这里其实又扩展出来了另外一种数据类型:交易数据,也就是这些实体数据结合在一起产生了事件活动记录,那么这个记录就属于交易数据。例如通话记录、销售记录等等事件。这样看起来好像主数据是嵌入到了交易数据中了,但是主数据相对交易数据来说的话,属性是相对稳定的,而且可信度要求高,需要做到唯一识别

既然扯到了交易数据,那么这里再和另外一个名词做下对比:元数据,关于元数据的定义概念可以看万字介绍25种元数据管理解决方案(含视频,建议收藏)。在通信院发布的《主数据管理实践》中提到的了元数据和主数据的区别,小编觉得很形象,该书中提到了“元数据类似于表格的表头信息,是一个相对的概念;而主数据是从元数据中挑选出来的,代表的是企业业务运行的关键、通用性数据,是一个相对主观的概念,主数据不仅仅只是表头信息,而且还包括了实例数据”

那这里又扯到了元数据,大家可能又会和数据仓库关联起来,主数据其实和数据仓库是有些相似点的,但也不能把主数据完全等同于数据仓库。首先主数据和数据仓库都有一个共同点就是集成,因为主数据是跨业务、跨系统、跨部门的共享数据,那么就需要把各个业务系统共享的数据进行集中式管理,这样一来就减少了数据冗余,不一致的问题;那数据仓库也是针对数据进行了集成,把所有的数据都放到一个“仓库”中,供企业中所有人进行查阅(当然还是要考虑数据安全的)。这么一梳理,其实就应该发现两者之间的不同了,数据仓库是面向所有数据,也就是来者不拒,统统都收;但主数据并不是所有的数据都集成,而是那些核心的、有高度价值密度的数据才会进行集中管理。

这里还有一个数据流向和时效的区别点:对于数据仓库一般是单向的,也就是数据从业务系统入仓之后经过ETL处理后出仓用于决策分析;而主数据来源于业务系统,同时也会流回业务系统,属于双向的流转;而且数仓中的数据发生了变化,一般是T+1后才会感知到。而主数据的变化需要实时的作用于业务系统,比如客户的地址或者联系方式发生了变化,那么就必须立即同步到业务系统,否则可能会使用历史数据,影响业务服务体验。

主数据作用与特点

从开头的定义就可以了解其第一个特点:共享;主数据是跨系统、跨部门共享的数据。那么既然是共享的数据,那么就可以解决系统之间数据不一致的问题,比如说一个用户可能在多个系统之间有不同的地方信息(比如搬家了),如果各个系统使用各自的地址信息,最后肯定是会出问题的。如果各个系统统一使用最新的地址,就不需要考虑该问题了,这样在协作流程上也有所提升(其实这里需要涉及到主数据管理MDM的范畴来保证主数据的标准统一规范)。同时由于数据是共享的,对于企业来说价值是很高的了,既然是价值高的数据,命名为主数据也不为过。

从上面一句话我们可以精简一下得到两个词:共享、价值;既然这类数据是被共享的,而且是价值比较高的,那么就要保证数据质量,而且不能经常改变了(哎呦,这跟缓慢变化维有点相似),如果各个系统共享该部分数据,质量不能保障的话,整个企业发展就很危险了,而且变化很频繁的话,就加大各个系统的维护成本,而且风险性也会提高,可谓是牵一发动全身呀。

参考数据定义

DAMA数据管理知识体系指南一书中对参考数据的定义是指“可用于描述或分类其他数据,或者将数据与组织外部的信息 联系起来的任何数据”。这个定义可以说是比较抽象,简单来说就是维度数据,大家平时理解的数据字典,该类型的数据的主要作用是用来增强对数据的可读性和解释性,比如状态编码、性别、产品维表、地理信息等维度数据。由此可见,参数数据的来源可能是内部产生或者外部手动采集获取到的(比如国际标准编码、行业标准)

特点

参考数据的特点同维度表的特点,有慢维,也有快维。

参考数据和主数据的区别

主数据和参考数据一般来说就是两种不同类型的数据。1、从定义上来看主数据是代表业务对象的数据,由关键业务实体组成,它包含了整个组织共享的最有价值的信息;而参考数据是定义其他数据字段使用的一组允许的值的数据,包含了附加的文本描述,更多的像是数据字典;2、从范围上来看参考数据是主数据的一种特殊子集。下面的表格汇总了主数据和参考数据的区别:

参考资料:

中国通信院发布的《主数据管理实践1.0》DAMA数据管理知识体系指南

DMBOK 数据管理知识体系第二版 AI-258 #认证

不同类型的数据有不同的生命周期需求。

不同类型的数据需要不同的生命周期管理,这使得数据管理变得更加复杂。数据可以按照多种方式进行分类,例如根据其功能(如事务数据、参考数据、主数据、元数据、可变数据、元数据事件数据、事务明细数据),或者根据其内容(如数据域、主题域或根据数据格式进行分类,以及根据数据保护的等级进行分类)。不同类型的数据有不同的需求,它们与不同的风险相关,在组织内也具有不同的作用。因此,许多数据管理工具都专注于数据的分类和管理。例如,主数据与事务型数据有不同的应用,因此需要不同的管理需求。元数据必须作为数据生命周期的一部分进行管理。由于认识到了元数据的重要性,数据管理专业人员会对其充满热情。然而,在与管理层交流时,他们通常避免使用“元数据”一词,因为这可能会让管理层感到困惑。

否则,管理层可能会感到迷惑。我们再次尝试讨论元数据问题,因为某些元数据不仅对数据管理很重要,而且是必要的。元数据包含了一系列信息,包括让人们了解这些数据的信息以及包含这些数据的系统。元数据描述了一个组织拥有什么数据、这些数据代表什么、数据如何分类、数据从哪里来、在组织内如何迁移、数据如何被使用、谁能使用数据、数据是否高质量等内容。数据管理的挑战不仅在于管理数据,还在于管理元数据本身。

如果一个组织无法管理好元数据,就无法管理好数据。应对这一挑战的答案是:元数据管理通常是提升整体数据管理的起点。数据管理通常与信息技术管理混淆。因为现在几乎所有的数据都是电子存储的,所以数据管理与技术管理一直紧密联系在一起,技术的决策通常会影响到数据管理的多个方面。因此,数据管理和技术管理需要相互参考,但它们仍有区别。数据管理专注于数据的可靠管理。技术管理则专注于建设和维护基础设施系统和应用程序,数据管理和技术管理之间的联系可以通过实现业务流程自动化来实现,在这个过程中收集或产生的数据将受到不同技术选择的限制。人和流程都需要消费数据,业务流程会产生和使用数据,因此数据管理和技术管理都需要植根于业务流程和流程需要中。在许多组织中,对新技术的需求和对可靠数据的渴望似乎存在矛盾,似乎这两者不是相互依存的,而是相互排斥的。成功的数据管理需要以技术决策为支撑,但技术管理和数据管理并非同一概念,组织应认识到技术对数据管理的影响,不能因技术迷信而让数据策略受到影响,相反,数据应与业务共同决定技术。

数据管理需要具备一系列技能,数据管理涉及数据生命周期相关的流程,贯穿于整个组织。虽然很多组织将数据管理视为信息技术的一部分,但实际上它需要不同部门、不同技能的人协作完成。数据管理是一个复杂的过程,需要不同团队在不同地方完成生命周期不同阶段的工作。

数据管理需要:

(1)规划可靠数据的业务流程技能;

(2)系统设计和管理硬件、搭建数据运维软件的高科技技能;

(3)发现数据问题的解析技能;

(4)分析和解决新问题的分析技能;

(5)表达能力,使人们对定义和模型达成一致意见,从而理解相关数据;

(6)战略思维,发现机会并通过数据服务消费者,实现目标。现在的挑战是如何将上述技能和愿景与组织内其他人员协同工作,最终达成共同目标。数据管理需要从整体角度考虑,数据管理的过程与组织创建和使用数据的过程相似。

数据是组织“横向管理”的重要组成部分,跨越销售市场和业务等垂直管理领域,或至少应如此。理想情况下,数据应通过整体层面进行管理。

然而,要实现这一点存在挑战,由于每个业务单元通常会通过开发自己的应用来实施工作,因此绝大多数组织会将工作分解为业务单元或功能。

数据通常被视为业务流程的副产品(例如销售交易记录是销售流程的副产品,而不是一个最终产品)。因此,数据通常不会超出直接需求进行规划,也不会被视为其他业务流程或资源可以使用的资源,除非企业已制定并强制执行数据标准,否则不同区域定义和创建数据的方式不同。

举个简单的例子:美国的社会保险号码(SSN)。数据管理执行指南是美国居民用于识别个人的属性。如果一个应用将SSN识别为数字值,而其他应用将SSN识别为文本字段,SSN数据将呈现不同的格式,这会导致SSN出现问题,例如丢失前面的“0”(数字)。由于数据的格式、粒度、属性等方面存在差异,不同的应用系统难以实现数据集成。这不仅会影响组织从数据中获取价值的能力,还会带来数据管理方面的挑战。因此,组织需要将数据视为一种资产,并在整个生命周期中进行管理,以实现最佳决策。然而,这需要认识到数据与业务流程的关系、业务流程与技术的关系、系统设计和架构以及数据的使用方式等因素。为了实现数据管理的最佳效果,组织需要制定长期和短期目标,并平衡两者之间的关系,同时需要具备有效执行具体项目的能力。然而,由于时间和费用的压力,组织在执行战略时会面临挑战,因此需要进行全生命周期管理,并在企业整体层面进行。否则,组织将面临高昂的成本,这些成本可能是隐性的。因此,数据的全生命周期管理需要规划技术和协同工作。

声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送至邮件举报,一经查实,本站将立刻删除。转载务必注明出处:http://www.hixs.net/article/20240407/169625715098013.html