当前位置:今日智造 > 智造快讯 > 新闻

李广乾:小数据的大价值

2019/1/4 1:05:58 人评论 次浏览 来源: 分类:新闻

数据是资产的概念已经成为行业共识。然而现实中,对数据资产的管理和应用往往还处于摸索阶段,数据资产管理面临诸多挑战。

为进一步促进数据资产价值相关问题的研究交流,2018年12月13日,由中国信息通信研究院、中国通信标准化协会主办,TC601大数据技术标准推进委员会承办的“2018数据资产管理大会”在京召开。国务院发展研究中心研究员李广乾进行了《小数据的大价值》的演讲。

李广乾

在演讲中,他首先回顾了大数据发展,并详细解释了“小数据”的属性、概念与类型,同时阐述了小数据与元数据、主数据之间的关系,最后强调应当充分发挥小数据在大数据产业中的作用。

以下为演讲实录

在座的乔书记、代秘书长以及各位同仁,大家上午好,很高兴参加今天的数据资产管理大会。我的主要研究领域是信息化,先后做过电子政务、电子商务以及工业互联网平台的研究工作。我在2009年开始研究主数据管理并应用其技术方法解决国家电子政务四大基础数据库之一的法人库的标准化建设问题。所以,我估计是国内最早将主数据管理应用于电子政务信息资源管理问题分析的人了。

随着大数据的日益普及,我一直在思考一个问题,小数据是什么?虽然我对这个问题研究了很长的时间,也收集了当前关于小数据的一些认识,但是都不太令人满意。到现在为止,我还没有见到一篇专门的文章讨论什么叫小数据。人们在谈论小数据的时候只在大数据的话语体系里面提到说应该有一个小数据的说法,但是至于怎么认识、怎么样界定,特别是小数据跟大数据的关系以及小数据到底对我们的大数据产业发展以及管理制度建设方面带来哪些的影响,始终没有一篇文章或研究成果给出合适的答案。所以,为了研究这个问题,我专门将这个题目放在我的电脑桌面。这一放就是三年,到今年下半年终于把它写完了,今天借这个隆重的会议现场向大家汇报一下我对这个问题的思考。

刚才也谈到,这个问题没有人系统地研究,大家对这个观点、说法可能就很不一致,我介绍我个人的一些想法,主要从几个方面,一个是背景,第二是小数据的属性,第三是小数据与元数据、主数据的关系,第四是小数据在我国大数据产业管理上的含义。

我们所处的背景跟大数据的发展有密切的关系,大数据这个词也已经提了很多年了,特别美国奥巴马总统在2013年颁布的大数据研发计划,对此后的全世界大数据产业发展起了巨大的推动作用,我国也在2015年发布了促进大数据发展的行动纲要。

为了贯彻“行动纲要”,国家也出台了很多的政策措施,地方也成立了相应的大数据管理机构,最近这几年来国家围绕促进大数据发展也制定了一些重大的政策文件。从这些文件里面来看,大数据已经进入了国家发展的战略层面。但是,在这些文件里面,我们找不到小数据。尽管一些文章、一些报道或者一些专家的说法里面会经常提到小数据,但是在我们的专业文章、政策文件里面一直没有一个合适的界定,所以我觉得讨论小数据是很有意义的,尤其考虑到小数据与我们原来的信息资源管理或者信息资源开发利用这些概念和政策之间存在一定的联系。

大数据好像是一个突然来到的概念,而且大家好像觉得大数据是万能的,可以解决一切数据处理的问题。那么小数据又到底起什么作用呢?这将是我们讨论这个问题的关键出发点。

我们来看一下,要认识小数据,必须解决几个问题。

我们先来看看目前人们对于小数据的各种说法。我收集了当前这些说法,并把它们概括为三种类型。第一种是认为,小数据指零星的弱信号。第二种是认为,小数据是指结构化的采样数据。从采样来看,一般是抽取1-2%或者5%的小样数据来做整理、分析和评判。第三种是认为,小数据指数据容量比较小的那些数据。这些说法,我觉得都不足以作为一个理论化的概念或者体系去构建,无法深化我们对于大数据的认识。其次,我认为如果要讨论小数据,必须明确三个前提:一是人们采集、加工海量数据的时候,通常都是具有某种特定目的的;二是要体现某种价值,数据本身必须能够表述一个完整的信息;三是完整的信息应该包含明确的主体、客体和行为。这是我们构建小数据的时候必须具备的一些基本前提。

我们通常把数据、信息、知识和智慧分为四个层次,每一个层次之间有一个递进关系。其中,数据是基础。随着我们对小数据的认识,对于主数据、元数据的认识也应该有所改变。我这几年一直在想应该会怎么样改变,但到现在为止我还没有想到一个合适的架构去表述把小数据和业务发展本体论结合到一起时将发生的变化。

基于这个认识,我觉得我们对于小数据的属性有一个基本的认识。小数据应该与数据容量没有关系,小数据自身应该包含特定意义,小数据也应该是一种结构化的数据,是对于大数据的数据之间关系的宏观描述,同时小数据与大数据是紧密联系在一起的,如影随形,是整个大数据的一部分。从这个角度出发,我们来对小数据做一个定义:所谓小数据就是指描述并管理大数据的数据属性的数据。

在这个定义之下,我对小数据有一个分类,第一类是关于特定类型的大数据的数据属性的数据,第二类是描述大数据中所包含主体客体的基本特征的管理数据,第三类是描述大数据中的行为过程的数据。其中第二类又可以分两种,一种是对于大数据中所包含的主体、客体的一般属性的规定,另一种是满足某类主客体属性的所有对象的数据。

小数据到底在认识上应该应有哪些现有的技术或者说架构框架?我刚才对这些类型做了划分,其实这些类型都可以再具体化,将其分为元数据和主数据两种类型。具体来看,第一大类和第三大类以及第二大类的第一小类应该属于元数据的范畴,第二大类的第二小类实际上是一种主数据。如果从这个角度讲,我们认识小数据的时候,其实可以应用现有的数据管理比较成熟的技术与方法去界定、去认识它。

为了进一步细分小数据具体的内涵,我们来看看元数据。元数据是我们认识很久的一个概念,最初是从图书馆图书管理学过来的,现在随着计算机系统的发展,主要应用于系统的日志管理等方面,现在元数据已经普遍应用于各行各业。我对“DAMA数据管理知识体系”中的元数据做了概括,将元数据的领域分为16个方面。从这16个方面来看,每一个行业都可以用元数据的思路去做相应的界定。同时元数据的类型可以分为业务元数据、技术操作元数据、流程元数据和数据管理制度元数据,从属性来看元数据包括各个行业、各个领域、各个方面,每一个信息系统里面都存在着一个元数据的建设问题。

主数据是近几年的一个概念,主数据也有国际标准ISO 8000。同时DAMA国际在主数据建设推广方面做了很多规范体系的建设工作。我曾经在2009年参与了国家法人库标准化研究工作,当时我们就意识到,主数据管理可以成为我们开展电子政务四大基础数据库建设的一个基本工具。

关于主数据定义,我在2009年开展国家法人库标准化研究的时候,曾经做过一个定义,我觉得这个概念能够比较准确地界定主数据的科学内涵。我把主数据定义为:满足跨部门业务协同需要、反映核心业务实体状态属性的企业状态属性的基础信息。政府部门和企业对主数据的认识和做法有所不同,其他不同行业也有不同的主数据认识和要求,比如说法人的基础信息,依法认定是它的重要特色,然而对于其他的资产管理来说就不一定是依法认定,只要你觉得在业务属性上有必要把它当成基础数据,只要满足主数据的特点,就可以把它当成主数据来管理。

主数据与其他数据的关系,我做了一个划分。业务数据就是我们完成某(广义)业务时所留下的所有数据和信息记录,主要包括主数据和交易数据,其中交易数据是在完成具体的业务过程中,根据特定规则(如技术流程规范、业务制度、法律法规等)要求所完成的具体内容。这是我对这些数据之间的关系的认识。

在大数据中小数据是非常重要的一个内容,要正确地认识大数据就必须把小数据认识清楚,只有认识清楚了小数据,才能对大数据有一个科学的、合理的、正确的认识,所以小数据对我们认识大数据是一个基础性的工作。今后为了促进大数据产业发展,应该充分地借鉴应用小数据的基本理论框架,深化我们对于大数据产业的管理和应用。

下一步谈一谈如何从政策角度处理小数据。对于大数据发展,我们首先应该深化对小数据的认识,这应该从数据属性、知识管理和数据架构等方面对小数据进行专题研究,尤其要将小数据的建设纳入我们大数据产业发展的话语体系当中去。

第二是加强宣传,克服当前在大数据中的不合理观念。很多基层的民众对它认识很不清楚,即使是专业人士也存在着很多的困惑,好像大数据与我们平常的工作没有关系,只要用了大数据的系统,数据管理、决策就可以全部解决了,但是其实这是一个假象。我认为我们原来做的那些基础数据管理的工作仍然是非常必要的,而且是一个基础性的工作,这对于我们采用新的大数据分析工具仍然是必不可少的。实际上如果我们仔细观察,就会发现在一些大数据的架构框架中,也存在着数据清洗、分解、重构的要求。如果我们能够事先将小数据认识清楚的话,将有助于大数据价值的利用分析过程。所以小数据还是具有很深的政策的含义,对于当前发展大数据产业发展仍然是一个非常重要的理念。

第三是基于小数据可以完善我国的数据管理体系,促进我国大数据产业健康发展。刚才谈到,各行各业都在做自己的大数据管理的文件,特别是在电子政务、电子商务以及其他的一些传统制造行业。小数据对于我们大数据管理的价值是很有帮助的,当前可以借鉴像ISO 8000以及DAMA国际对于数据的一些认识及其标准规范。当然DAMA国际现在也在不断地演进。我也一直在想,我们可以借鉴DAMA的东西用于国内的数据管理实践,但是另一方面,DAMA的成果只能作为参考,因为中国目前大数据产业发展仍然有许多问题,比如基础数据建设、数据合规性管理、一些特定行业与行政管理体制的关系,以及小数据和大数据的相互关系处理等等。以上这些对大数据产业发展都是非常必要的,而且是我国数据开发管理体制建设的一些基础性工作,所以小数据是一个无论在理论上还是政策实践上都非常重要的概念。

今天我给大家汇报的只是个人的研究成果,很不成熟,仁者见仁、智者见智,希望能抛砖引玉,引发大家对这个问题进行更深入地思考。特别是一线的同志,希望他们在我的研究基础上提出更加专业、更加深入的建议,建立更加具有指导意义的认识体系或者理论体系,深化我们对大数据产业发展的理解,使我国大数据走在世界前面、健康发展。我的演讲到此为止,请大家批评指正。

关 于 我 们

大数据技术标准推进委员会(CCSA TC601),旨在凝聚产业链各个环节,识别和解决大数据发展面临的重大问题,开展大数据技术、数据资产管理、数据共享与流通、数据安全等共性基础标准研究,以标准推进工作为纽带,推动大数据与实体经济深度融合。欢迎加入我们的行列!

咨询电话:王月 18610035376wangyue1@ritt.cn

免责声明:本文系网络转载,版权归原作者所有,如涉及版权,请联系我们删除,QQ:1138247081!

共有条评论 网友评论

验证码: 看不清楚?