作者:江濡山。哈佛大学肯尼迪政府学院访问学者、高级研究员;香港环球经济电讯社(GEDA)首席经济学家。
此文是为了提醒企业家、投资人和政府有关部门:加力推动大数据产业发展的核心目的是服务于各个行业的产业升级和业态创新,而不是惟大数据而大数据,既不应陷入大数据发展盲区,更不要掉入少数学院派技术“权威”挖掘的“大数据”陷阱。
“大数据”一词越来越火辣,煽情全球。出于一种职业精神和科学良知,我和我的团队,近几年来深入调研剖析“大数据”产业到底是怎么回事。从美国的SaaS、亚马逊、谷歌、苹果、思科到中国的华为、腾讯、浪潮及航天某某研究所;从美国北卡三角地、旧金山的硅谷、波士顿的哈佛及MIT到中国的北京中关村、深圳前海、清华大学及北大----等等。我们通过诸多神不知鬼不觉的走访、调查和分析,终于可以撕下“大数据”神秘的面纱,也确实搞明白了:数据处理技术如何才能服务于各个产业领域的技术升级和业态创新;同时也搞清楚了:为什么海内外相当一些所谓的“技术权威”及科研机构,能够靠玩概念、攒项目从政府和投资人那里攫取大把大把的资金,最后却没有实质性成果。而实实在在的大数据成果,却来自一流的IT企业内部。最近几个月,受邀走访调研了全国二十多家科技产业园区,感触良多,不吐不快。
1撕开“大数据”的神秘面纱:原来如此!
现在,中国经济运行虽然已经步入严寒季节,但“大数据”一词热得烫嘴,无论是政府官员、产业精英,还是IT领域、高等学府、高技术开发区,如果开口闭口不说“大数据”,似乎都不好意思“混在当下”;如果嘴里偶尔能蹦出一两个诸如Hadoop、Storm、Spark、IOE的时髦名词,就更显出一幅业内高手的神态。其实,我要说的是:“大数据”并不是什么新鲜玩意儿,自从工业革命开始以来,数据科学就越来越得到人们的重视,只是到了21世纪初,数据应用的积累,深深触动了产业重构和业态创新,“大数据”一词才应运而生。“大数据”并非数据越多越好、运算量越大越好,其综合含义应当是:针对并服务于某个特定目标的立体数据生态系统,而且这个系统中的前端功能模型、中断数据架构及后端算法及编程,是一个统一体系。确切地说,“大数据”概念的内涵及外延,主要体现在三个层面:
一是基于行业趋势及产业业态创新的需求端“功能模块”的构建,这是一个需要具有大数据思维逻辑的产业经济的命题。比如:如果要优化一个区域的旅游产业结构、投资结构、资源配置结构,可以通过完善产业供给链达到延伸游客消费链的目的,这就需要建立区域性的动态运行的“旅游产业大数据”信息系统,而此举首先要做的是:产业发展物理模块的策划、设计、搭建和论证。这项工作是实施这项大数据项目的“前提”。
二是基于产业发展功能模块基础的“数据模块”的搭建设计,这是一个紧密服务于应用端诉求的有效数据关系分析、确定算法的复杂过程,这也是数据建模及搭建特别功能属性的数据仓库的过程,需要用人力思维与计算机算法的有机结合。目前,这个领域的技术才刚刚开始向产业领域渗透,未来可拓展空间很大。
三是基于数据模块进行的数据挖掘、采集、清洗和应用编程。这个过程实际上是“技术工人”的工作,多数计算机及信息系统专业的人都可以完成,如果在熟练应用传统计算机信息系统应用软件的基础上,熟练掌握Hadoop、Spark、IOE等操作系统,就可以完成此项工作,但更多的工作量还得基于Excel来完成,因此,把Excel玩熟玩透是玩好大数据的基础,或许更有价值。
综合来看,大数据人才的价值主要体现在上述的前两个层面。
一流的大数据人才到底隐身何处?
当下的中国乃至全球,能真正看清“大数据”的真正面目,并通过数据革命引领产业创新的优秀人才屈指可数,到是人云亦云、跟风弄潮者确实不少。可以不夸张地说,全球范围类,类似Perntland(MIT)、Norvig(Google)、Geoffrey Hinton(Google)、鄂维南(北大)、Andrew Ng吴恩达(百度)这样的大数据专家,全球也不过二三百人,而赴其后尘者的新锐大数据专家,估计全球不过千人左右。
所谓的大数据专家,不单是计算机及信息系统领域的专家,也不是行业及专业领域里的权威,而是善于把应用诉求端与数据技术服务端,用大数据思维整合到一起的复合专家,通俗来讲,是市场行家、产业及产品专家、有效数据资源识别及配置高手的复合体。大数据专家既可以是一位在某个行业领域里具有这三项功能的复核人才,比如:MIT的Perntland、谷歌的Norvig、百度的吴恩达等大牛,也可以是具有这三项功能的人形成的“人才组合Team”,比如亚马逊的物流物联研究小组。真正的大数据专业人才之所以太稀少,是因为他们的思维细微深深扎根于市场,他们是从市场上“野蛮”生成的,绝非闭门于高等学府可以修炼出来的。
上述的这些大数据专家到底隐身潜伏在哪里呢?俗话说:大隐隐于市。他们就隐身于一流的科技公司埋头钻研。纵观全球,百分之七八十的优秀大数据专业人才,都就职于全球顶尖的科技公司,在高等学府和基础研究机构的大数据专家的确很少。苹果、亚马逊、谷歌、高通、SaaS、思科、华为、腾讯、阿里、百度等等全球前50家顶尖企业,几乎垄断了大数据专家,然而,他们未必意识到自己就是一流的“大数据”专家。相反,有不少深居高等学府、科研机构和咨询公司的一般的计算机及网络技术专业人士,却自诩为“大数据专家”,在全球范围内混吃混喝。
今天的中国,我们看到的是不少伪专家一方面给企业家、投资人灌迷糊汤,一方面给政府官员贴膏药。有些所谓的大数据专家,头顶不少学术桂冠,虽然立项后拿到了政府和投资人的项目经费,却老虎吃天不知如何下口,索性关起门来,只停留在“Excel”的基础上闭门坐车,盲目地捣鼓数据库。值得警惕的是:投机心态驱使下的一些缺乏实战经验的“学术权威”,正在编制“大数据”陷阱,政府及投资人如果不能认清“大数据”的真面目,很容易就掉入“陷阱”,盲目投资。
Geoffrey Hinton(谷歌)
Alex Pentland(MIT)
Peter
鄂维南(北大)
吴恩达(百度)
中国要振兴“大数据产业”得先做好两件事
中国作为全球经济产出体量最大、消费需求规模最大的新型经济体,大数据产业对推动各个产业领域的创新发展,具有不可估量的发展空间。但是,振兴“大数据”产业,既不能盲目受产业领域专家的影响,也应当突破“技术官僚”的小圈子,面向市场、面向一流的科技企业、面向年轻的技术队伍。大致来说,应当在两个方面发力:
一是加速大数据应用的系统工程建设。这是最主要的、也是见效最快的,此举需要具备“乔布斯式的组合混搭思维”加速推进中国的大数据产业发展,即:用大数据思维模式把行业、产业专家与数据专家有机结合起来,直面各个行业领域的产业转型及业态创新。
二是加速基础数据工程建设。这是一项基础研究,是慢功夫,需要在西方现有的技术软件基础上创新研发,短期内要有突破性的成果还比较难,但要舍得投入。这方面应当由数据技术专家领衔和主导,在高等院校和对应的科研机构完成。从长远看,此举是提升国家大数据技术水准的战略举措。
切记:不要将上述两个方面混为一谈。但这与“产学研一体化”不矛盾。
关于“大数据产业”,需要强调的几个概念
1)“大数据产业”并非一个独立的产业,他只是一个服务性的工具。
大数据技术的研究及应用,是以市场诉求及产业经济发展需要为基础的,它不过是服务于特定目标的技术手段。因此,目前最最紧缺的是行业性的大数据专才,比如医学领域急需要懂得人体生命科学及健康学的具有大数据思维的专家。
2)大数据思维比大数据本身更重要,物理模块比数字模块更有价值。
因此,大数据人才并非只有数理学科的专业人才,而是混合型人才,比如:能够写计算机编码程序的人比比皆是、身价也不高,因为他们只知其然不知其所以然。然而,大数据时代的“架构师”不是单纯的数字建模和初级的行业知识,而是能够独立策划设计出产业创新发展物理模块的专家。也就是说,玩“大数据”的技术圈子,若单纯靠Hadoop、MR、Storm、Spark、Kafka、Dataflow这些数据处理技术,只能搭建出没有使用价值的空中楼阁,其研究只能自困于小圈子而渐渐窒息。因此,如果大数据的研发及应用,只是数据技术的“圈内人”,那的确是一种悲哀。
3)“没有数据源”是个伪命题。
我最近跟不少谈吐大数据的人士交流过程中,大家普遍有这样的感叹:中国的数据垄断与分割很严重,搞大数据研究缺乏数据资源,根本得不到政府各个职能部门及中国电信、中国联通这样的数据,怎么搞研究?而且也没有数据交易市场。其实,“没有数据源”这是一个伪命题。事实上在美国、在欧洲、在日本,数据作为一种核心的资源,在很多领域、在很大程度上也是不公开的,即使美国硅谷一些专家呼吁建立数据交易市场,那也是太过天真的想法,不可能完全实现。越是大数据时代,数据资源越是宝贵,任何机构和个人越是不会轻易泄露自己的数据信息。其实,并不是数据越多越好、数据流量越大越好,有效数据及数据关系才是最重要的。因此,大数据研究与应用,在很大程度上是研究模式和研究方法问题,如果把握好应用端的明确诉求,采集有效数据样本并不是太难。比如:类似Hadoop(2006年发布的分布式数据开发应用程序),Spark(UC Berkeley AMP lab发布的数据并行计算框架软件)、Dataflow(数据流)等等大数据软件及名词,最初都源自谷歌等IT企业及美国一些理工科大学的实验室。它源自实践也必然生存和成长于实践。因此,推动大数据产业发展的“数据源”主要来自自身,第三方研究服务者的数据主要来自需求方的委托。特别需要说明的是,一个真正的大数据专家应当具备的最基本的“真功夫”是:根据产业发展需求设计有效的数据样本并建立模拟应用系统,然后在实践中验证。
本文作者2013年在麻省理工(MIT)设计的一个验证数据关系的数据模型
4)大数据培训先睹为快
【大数据分析师】
智慧城市建设和大数据的发展是国家级战略,是贯彻党的十八大精神,落实十三五规划,实现两化深度融合的重要举措。十二届全国人大三次会议上李克强总理在《政府工作报告》中首次提出“互联网+”制定了“互联网+”行动计划。旨在推动移动互联网,物联网,云计算,大数据等与现代制造业结合。促进电子商务,工业互联网和互联网金融健康发展。《十三五规划纲要》中提出实施网络强国战略,实施“互联网+”和大数据战略及行动规划。
大数据是信息化社会无形的生产资料。我国已步入大数据时代,这种重视是由政府层面自上而下进行的,各级政府已高度重视意义重大。大数据支撑智慧城市的发展,为各职能部门精准施政提供依据,为企业提供精准定位和营销。未来五年我国大数据市场规模年均增速将超过30%,国内大数据人才缺口将非常突出。培养大数据人才尤其是高端人才迫在眉睫。
“大数据系统综合技能技术”培训考试项目是工业和信息化部正式审批的专项培训项目。。信息化人才培训考试管理中心将于2017年4月15日举办“【大数据分析师】高级研修班”。对培训及考核通过的学员颁发由工业和信息化部认证对培训及考核通过的学员颁发由工业和信息化部认证的专项技术证书,作为企事业单位选拔和聘用人才从事相关岗位的任职依据,大数据项目投标资质。
时间地点:
时间:2017年4月15日(周六)至2017年4月18日(周二)
地点:北京
一、培训目的:
1、帮助企事业单位培养大数据实用专业人才,系统掌握先进国际国内大数据规划、运营管理的方法和工具。
2、帮助学员完善大数据知识体系:政策体系、技术体系、应用方案体系、投融资体系等。
3、搭建国家级大数据政企高端持证人才平台。学员将享受更多的经验分享,项目推荐,师资推荐。让学员更快成长,更多的商业机会,令企业实力更强。
一、参加对象:
1、各基础通信运营商,各级大数据建设工作领导小组办公室负责人。
2、信息化企事业及大数据产品企业管理者、产品负责人(房地产、电子商务、物联网、互联网、新一代信息技术,智慧产品、智慧城市软硬件供应商等相关企业)大数据规划设计院相关人员等。
有关团队参加,有利于现场深入讨论,培训效果更佳
三、培训收获:
1.培训结束将由工信部为学员颁发【大数据分析师】高级专项技术证书。(工信部官方网站可查询)证书可作为单位聘用、任职、定级、晋升及继续教育的重要参考依据。企业进行项目投标时具备大数据专业人才的资质证明。获的证书的学员直接进入工业和信息化部信息化高级人才库。学员报到时请准备1寸蓝底照片2张(背面注明姓名身份证号及证书名称)或电子档照片。
2.全面了解十八大以来国家大数据建设相关文件精神及政策。
3.学习关键技术应用节点,以及了解国际国内项目运作流程。
4.此次培训是一种专项人才的人脉资源整合,是搭建高校与企业、企业与政府、行业之间交流的新平台,项目对接合作,也是能让学员快速进入国家级大数据政企高端合作平台的新起点。
四.学习内容:
(一).落实国家大数据战略的形势、任务与政策。主要从研究、起草国家大数据行动纲要和目前部际联席会议推进落实的角度讲,包括国家大数据战略解读、应用与产业发展、国家大数据综合试验区、国家工程实验室、国家大数据工程等。
专家:
【国家信息中心信息化研究部副主任,国家促进大数据发展部级联席会议秘书处 秘书长,国家大数据发展专家咨询委员会 秘书长】
(二).大数据简介:
1. 大数据时代-互联网拉开了万物互联的序幕
2.大数据热潮 创新价值引发的颠覆性变革
3.大数据挑战---“4V”特性全面挑战传统IT
4.大数据应用---技术体系与应用落地
二.大数据技术与应用
1.大数据技术体系与挑战
2.大数据平台架构与服务模式
3.大数据应用创新
专家:
【哈尔滨工业大学计算机专业博士,深圳大学计算机专业博士后,国家信息中心深圳大数据研究院院长助理,广东省大数据协同创新中心办公室主任,深圳市高性能数据挖掘重点实验室主任助理。】
(三)纲要
1、大数据发展的政策环境及发展趋势2、电信大数据的发展前景、应用模式以及对运营商转型升级的重要作用3、发展大数据合规性管理及隐私保护的5条边界4、电信运营商发展大数据行业实践
专家:
【中国信息通信研究院(工业和信息化部电信研究院)高级工程师,清华大学电子工程系毕业,获信息与通信工程专业博士学位,曾于2010-2011年在美国哥伦比亚大学电子系任高级访问学者。现从事物联网、大数据领域的研究工作。】
(四)纲要
1.大数据时代背景分析
2.大数据推动供给侧改革
专家:
【清华大学数据科学研究院执行副院长】
(五)纲要
1.解密大数据
2 .大数据生态链的构建与政策推动
3.大数据时代的产业变革和新机遇
专家:
【清华大数据产业联合会秘书长,清华大学数据科学研究院院长助理、清华大学工学学士、硕士,中国社会科学院博士】
五、费用及收款:
培训费用 8600元/人(含报名费、培训费、学习交流费、教材费、考试费、午餐费、证书等相关费用)。汇款。
主办单位: 信息化人才培训考试管理中心
清华大学数据科学研究院
报名邮箱:1074876644@qq.com
(注:想学习的可发到以上邮箱,会第一时间通知您)
5)大数据的应用有盲区,也有局限。

共有条评论 网友评论