市场热点
京津冀将打造七个大数据应用示范区
根据日前推出的《京津冀大数据综合试验区建设方案概要》,三地将充分发挥京津冀在大数据基础设施建设、数据共享开放、产业集聚发展等方面的示范带动作用,加快推动大数据产业惠及民生、创新发展,联合打造国内首个跨区域型大数据综合试验区。
综合试验区建设将突出创新驱动、突出服务民生、突出联动协同、突出产业融合。发挥科技创新资源优势,挖掘京津冀市场应用潜力,形成完整的大数据技术创新链条;瞄准京津冀协同发展重大需求,围绕科技冬奥、环保、交通、健康、旅游、教育等重点领域,提升大数据服务民生的保障能力,在全国形成引领带动作用;推动数据资源对接、数据企业合作、数据园区共建,打造以北京为创新核心,天津为综合支撑,河北张家口、廊坊、承德、秦皇岛、石家庄为应用拓展的大数据产业一体化格局;大力发展基于大数据的商业模式创新,探索大数据与传统产业协同发展的新业态、新模式,促进传统产业转型升级和新兴产业发展。
综合试验区建设主要目标是:到2017年底,数据开放、产业对接框架基本形成,数据开放共享机制体制初步建立,环保、交通、旅游等重点领域试点示范率先启动;到2018年底,大数据成为提升政府治理能力、推动产业升级的重要手段,三地初步形成集群特色鲜明、协同效应显著、资源配置优化的发展格局;到2020年底,大数据红利充分释放,成为提升政府治理能力的重要支撑和经济社会发展的重要驱动力量。
综合试验区建设的主要任务,即打造七个大数据应用示范区。一是北京大数据核心示范区。发挥北京作为全国科技创新中心的资源优势,打造国家大数据产业创新核心区和全球大数据产业创新高地。二是天津大数据综合示范区。以滨海新区、武清和西青等地电子信息产业基地为依托,构建完善的大数据发展和产业支撑体系。三是张家口大数据新能源示范区。加快建设张北京津冀云存储基地、国家绿色数据中心示范基地、全国数据灾备中心、河北省主数据中心,打造京津冀大数据综合试验区“特色功能区”。四是廊坊物流金融遥感大数据示范区。重点发展智慧物流、金融、遥感大数据应用与创新,促进电商与物流的融合发展,探索遥感大数据技术推广应用。五是承德旅游大数据示范区。加快旅游大数据建设,打造京津冀旅游大数据产业中心和综合应用示范区。六是秦皇岛健康大数据示范区。探索大数据在大健康技术、产品、模式、服务、应用等领域的全面创新,努力打造中国北方规模最大、以大健康产业为特色的大数据产业集群。七是石家庄大数据应用示范区。以正定新区为依托,重点布局大数据平台服务和大数据应用开发中心,在金融、健康、教育、电子商务等领域开展大数据应用示范。
2017中国国际大数据挖掘大赛启动,17城政府数据管理机构发布开放宣言
3月1日,2017中国国际大数据挖掘大赛在贵阳启动。贵阳、北京、上海、深圳、广州、杭州等17个国内政府数据开放先行城市相关机构代表,发布了《共同促进数据开放及应用行动宣言》。
宣言认为,数据已成为国家基础性战略资源,共享是通往数据创新应用、创造价值、释放能量的必由之路。政府及相关机构,不仅是大量数据的拥有者、管理者,更应该成为数据开放的推动者、先行者。
宣言倡议,厘清义务和权利,做好标准和对接,保障安全和隐私,谨慎试验,坚定探索,共促政府数据开放,引领数字经济的崭新未来。
“我们向全球发出2017中国国际大数据挖掘大赛项目征集令,欢迎全球有志之士携手挖掘大数据‘钻石矿’。”贵州省大数据发展管理局副局长康克岩介绍,此次大赛将加大政府数据开放力度,为参赛选手提供14个政府开放数据平台的9000多个数据集,1600多个数据接口,涉及旅游住宿、交通服务、餐饮美食、医疗健康、文体娱乐、消费购物等多个领域。
同时,大赛组委会还将组织一批公共数据、行业数据提供选手共享,包括贵州省交通运输厅提供的道路、桥梁、收费站、加油站、车辆、经营业户等数据以及中国移动集团贵州分公司提供的手机信令数据。
大赛设有挖掘赛、应用赛和系列分支赛。获奖项目和团队将分享400万元奖金。获奖项目落地贵州,还能申领相应的扶持基金,并根据项目发展实际需要,获得有针对性的服务和产业优惠政策。
启动仪式上,康克岩与清华大学数据科学研究院执行副院长韩亦舜,上海SODA开放数据组委会代表王志永,以及往届大赛数据挖掘获奖项目代表薛铮上台,共同挥锤敲碎一块象征着资源矿藏的模型,露出矿藏下代表着数据资源的各色U盘,存储着大赛组委会为参赛选手提供的一系列政府开放数据、公共数据、行业数据目录,相关的数据将发布至大赛官网供选手下载。
韩亦舜说,贵州的大数据大赛从2014年发掘商业模式路径,到2016年推动大数据与智能制造结合,再到2017年聚焦数据挖掘,每一届的比赛主题,与其说是贵州大数据发展阶段性特征的生动展现,不如说它就是贵州大数据从萌芽向成熟演进的行进过程,“是一个欠发达地区借助先进理念和技术,走出自我走向全球领先的成长之路。”
企业动态
IBM全面展开未来几年的医疗人工智能计划
试想,芯片比全球最好的实验室更厉害,可迅速拿出疾病的准确诊断?微型摄影机能从分子层面上检验药片的真假?系统可以从语言中检查出此人患有心理疾病?IBM认为,这3件事都可以在几年之内做到,因为他们有大利器:人工智能+ 新型硬件。
IBM 研究室已经开始着手把这 3项研究变成成熟的医疗工具,将公司现存的机器学习和人工智能系统与芯片、毫米波相控阵感测器等结合。
AI +超音波系统,“看”到疾病和危害
首先要提到的“超音波系统”,是一种广范围的电磁波谱成像技术,不仅可以获取人眼可见光形成的图像,还能模拟超出此范围的电磁波图像。
使用高性能相机和其他感测器,临床医生就能发现用药是否适合患者。“用这种超音波技术,人们就像长了第三只眼,能发现我们日常所忽略的线索。”IBM 技术总监 Rashik Parmar 说。
尽管实现超音波的硬件已经出现,但要让其进入市场,还需做更多的工作。能够进行广泛光谱成像的仪器不是什么新鲜事物,但区别就是 IBM 要将其简化,小型化,并降低其制造成本,还要用认知演算法来进行破译和可视化,让这项技术真正发挥其作用。Parmar 还补充,IBM 现在有很多“花俏”的发明,但都能很快让它们变为可用性而在医疗应用上,简单例子的就是用超音波设备迅速看牙,或者为标准医疗射线检查提供更丰富的信息。
可能在 IBM 计划的 5 年之内,这种机器会变成你身边的药理学、毒理学专家,最终,这种超音波会被整合到手机中,在吃饭或服药之前可以先扫描一下,看是否有有害物质或致敏源等。
AI +芯片实验室,精细疾病早诊
相似的,IBM 也有可能会在几年内推出一种新的人工智能分析技术:芯片实验室。这种设备也就荷包大小,用一滴血或任意体液就能分析出细菌、病毒或预示着某种疾病的蛋白质。

▲ 芯片实验室。(Source:IBM Research)
Parmar表示,IBM从6、7年前就开始探索“纳米纤维”这种概念了,那时是要做一种可以模拟气味的工具。如果将纳米纤维与其他种类的感测器相结合,就能用纳米结构来检验体液,包括唾液、血液、液体活检的样品,从中分析潜在的疾病。再结合数码化制造和 3D 打印等技术,IBM 就能把感测器放入定制化探针,帮助有效分析。
相比启需要等待数周的血检,芯片实验室不用花时间来把病毒培养至能够被监测到的量,而是直接透过感测器来追踪最为细微的生物标记。
这项技术最为厉害之处,可能在其能够人们在出现症状之前就了解自己的患病可能。举个阿兹海默症的例子,在出现明显症状之前很长一段时间,患者的神经状态已经产生了显著改变。如果定期检查血样,可以在阿兹海默症的早期就寻找到生物标记,迅速开始根据个人的情况制定治疗方案。
虽然这种能从一滴血分析疾病的技术,对人工智能水平是个巨大挑战,但真正考验 IBM 公司把此种产品推向市场的,还是在于技术难度超高的芯片。“芯片的最小测量级别为 20 纳米,它能让你从一个相当细化的角度来观察病毒等物质,但要看到这个精细程度,在材料的制作上要花费巨大的心血。”
AI +文字资讯,形成精神疾病模型
精神疾病,是一个需要人工智能技术仔细咀嚼大量数据、再化做有效医学见解的领域。在接下来的两年内,IBM 会制造出能从人讲话中诊断精神疾病的机器学习系统原型。
在精神疾病诊断中,患者的谈话一直是医生用以判断病情的重要因素。语速、音量、用语特点,都可以用于判断精神疾病。现在 IBM 把这个分析工作交给了人工智能,从患者与医生的交流,或人们自己在社交网站上写下的话语,都可以做为分析材料。
IBM能做到这一点,前提是他们已花费数年时间来研究精神、心理障碍与语言之间的关联,建立起一套测量体系。“我们目前提上日程的研究,是要弄清这件事:对于特定的个体来说,某段话中的某些用语,能否帮助我们理解这个人的心理状态?”技术总监 Parmar 说。
IBM早已有过建立医疗模型的尝试:Watson 最早的商业化尝试,认为电脑系统,就是癌症护理医生的助手。今天,公司还与医疗行业产生了不少的合作,建立例如,IBM透露Jupiter 医疗中心(木星医疗中心)这家佛罗里达的地方医疗中心,就会引进IBM Watson的肿瘤辅助诊疗技术。另外,它还与纪念斯隆凯特琳癌症中心(MSK)合作了癌症治疗培训计划。
除了精神分裂症、双向情感障碍、忧郁症等,IBM 还会从可穿戴运动健身设备和医疗设备处获取数据,来辅助诊断帕金森氏症等神经疾病。虽然现在已经有医药健康专家把可穿戴数据用在诊断上,但 IBM 希望用机器学习来加速这个进程,并能提供额外的见解。
Parmar 说,其实美国和欧洲已经有人做了可穿戴数据的实验,也有教授把实验数据分享了出来,但没有人把这些数据综合在一起,研究这些数据中间是否有可关联之处,或者用整合的数据获得更深层次的理解。“用机器来处理和整合,恰好就是这个问题的答案。”
“深度学习技术及应用国家工程实验室”落户百度
3月2日,"深度学习技术及应用国家工程实验室"揭牌仪式在百度大厦举行。该实验室将以深度学习为基石,研发人工智能基础技术,实现大规模产业化。此前,国家发展改革委正式批复百度牵头筹建深度学习技术及应用国家工程实验室,实验室共建单位还包括清华大学、北京航空航天大学、中国信息通信研究院、中国电子技术标准化研究院等。
在揭牌仪式上,发展改革委高技术司副司长孙伟表示,该实验室是发改委在人工智能领域部署的首批应用型平台,将增强我国在人工智能领域的原始创新能力,抢占技术发展制高点。
2015年3月,百度董事长兼CEO李彦宏在全国两会上提出建设"中国大脑"的倡议,当发展人工智能已成国家战略之际,百度作为民营企业担当国家实验室的组织者,被看做是为中国科技创新开创了新思路。李彦宏在仪式上表示,对于百度来说,这是鼓励也是责任,实验室的成果将代表中国的人工智能水平,要在世界上做到让人仰慕。"所以我们这个深度学习的国家队,不能做国足那个国家队,而要做像女排那样的国家队。"
在揭牌仪式上,发展改革委高技术司副司长孙伟表示,该实验室是发改委在人工智能领域部署的首批应用型平台,将增强我国在人工智能领域的原始创新能力,抢占技术发展制高点。
2015年3月,百度董事长兼CEO李彦宏在全国两会上提出建设"中国大脑"的倡议,当发展人工智能已成国家战略之际,百度作为民营企业担当国家实验室的组织者,被看做是为中国科技创新开创了新思路。李彦宏在仪式上表示,对于百度来说,这是鼓励也是责任,实验室的成果将代表中国的人工智能水平,要在世界上做到让人仰慕。"所以我们这个深度学习的国家队,不能做国足那个国家队,而要做像女排那样的国家队。"
近年来,百度在人工智能领域投入巨大,并取得国际领先的成绩。百度大脑语音合成日请求量突破2.5亿,语音识别率达到97%,人脸识别准确率高达99.7%。百度连续两年入选《麻省理工科技评论》评选的"2016全球十大突破技术"榜单,成为上榜最多的中国企业。
对于该国家实验室未来规划,百度深度学习实验室主任林元庆表示,将"在听觉、视觉感知和语言理解三个人工智能基础领域,实现技术突破,在大规模国际公开评估集上达到世界一流的评估效果。尤其是推动由当前的简单场景问题向多元化复杂场景问题过渡,包括多主体图像理解,噪声背景下的语音识别和多轮对话及问答交互等"。
未来,"深度学习技术及应用国家工程实验室"将着力解决我国人工智能基础支撑能力不足等问题,推动我国深度学习技术及应用领域的产学研标用全面发展。
阿里云与国家天文台成立天文大数据联合研究中心
近日,中国科学院国家天文台与阿里云计算有限公司在北京签订合作协议,揭牌成立“天文大数据联合研究中心”,双方将共同推进大数据时代的天文学科学研究和科普教育工作。
根据合作协议,国家天文台与阿里云将互为天文云计算大数据领域的唯一战略合作伙伴。国家天文台—阿里云天文大数据联合研究中心将采用联合主任负责制,设立科学研究、技术发展、平台数据、科普教育等工作组,参照国家重点实验室的管理模式每年支持3~5个开放研究课题,招收3~5名冠名博士后,围绕“天文大数据”这一核心主题开展相关工作。
中科院国家天文台台长严俊表示,跨界合作对双方都有促进和提高,国家天文台与阿里云的跨界“融合”是科学大数据与丰富的云资源和深厚信息技术的“融合”,在天文学上结出硕果的同时,将在更广阔的领域内发挥引领和示范作用,推进大数据的应用创新和技术发展。
双方将以中国虚拟天文台为抓手,逐步实现国家天文台科技资源的“上云”,如天文学研究和科普教育工作需要的科学数据、在线服务、软件工具、数据处理系统、分析挖掘环境等。其中包括郭守敬望远镜(LAMOST)、500米口径球面射电望远镜(FAST)、明安图太阳射电日像仪、中国SONG项目、NVST太阳真空望远镜等设备的观测数据,以及远程天文观测网络和数据驱动的特色科普教育项目。
LAMOST是我国天文学领域第一个国家大科学工程项目,是世界上光谱巡天效率最高的望远镜。自2009年落成以来,已经获得超过700万天体的光谱,是世界上最大的天体光谱库。目前LAMOST的原始数据和产品数据规模已经超过50TB。中科院国家天文台郭守敬望远镜运行和发展中心常务副主任赵永恒认为,数据“上云”后向全世界开放,将大大提升LAMOST观测数据的显示度和利用率。
FAST于2016年9月25日在我国贵州落成,被称为“中国天眼”,是具有我国自主知识产权、世界最大单口径、最灵敏的射电望远镜。FAST进入正式科学观测后,每天将产生50TB的数据。
远程天文观测和特色科普教育是国家天文台和阿里云的另一重要合作内容,阿里云总裁胡晓明希望双方能够借助“互联网+”、大数据、云计算等先进理念和手段,更好地普及天文学知识,在我国乃至全球开展特色天文学科普教育。双方还将积极推进公众远程天文观测网络和天象直播平台的建设。数据驱动的特色科普教育活动将包括互动式数字天象厅院线建设以及公众超新星搜寻为代表的全民科学项目等。
据了解,2016年10月13日,双方在杭州云栖大会上共同发布缔结战略合作的消息。三个月来,双方就合作的具体事项和内容进行了多次磋商,达成了共建天文大数据联合研究中心的意向,并完成了合作协议详细条款的编写工作。
窗体底端
投资并购
利用 AI 助力医疗行业数字化,印度医疗科技公司 SigTuple 完成 580 万美元A 轮融资
据外媒消息,印度班加罗尔AI 医疗科技初创企业 SigTuple 完成580万美元 A 轮融资,现有投资者 Accel Partners 领投, IDG Ventures,Endiya Partners,Pi Ventures,VH Capital,Axilor Ventures 等风投机构跟投。Flipkart 联合创始人 Sachin Bansal 和 Binny Bansal,Uber 前高级副总裁、工程师 Amit Singhal 也参与投资。此轮融资将用于团队扩张,产品改进以及拓展海外市场。
SigTuple于2015年4月创立,通过人工智能技术对病理测试进行数字化。SigTuple开发了一种低成本的机器,用于数字化病理,扫描血液,尿液和精液样品。人工智能软件可以识别血液的图像,量化正常和异常的血细胞,跟踪显微镜视频中的精子细胞,并创建数字样本测试报告,以供任何地区的病理学家访问。据悉,当年10月,公司即获得一笔74万美元种子轮融资。
SigTuple 创始人 Rohit Kumar Pandey, Tathagato Rai Dastidar 和 Apurv Anand。
SigTuple产品的最大特点是提高病理学家的工作效率。现在的技术条件下,病理学家会使用给定的样品在显微镜进行下手动测试,受人的心理状态影响很大,并且当每个样品必须花费至少10-20分钟时,会令研究者十分疲劳。SigTuple 的产品能够在八分钟内生成病理研究报告。
SigTuple 一直通过班加罗尔的15家实验室和医院的病理测试和报告数据来开发该技术,而该产品不需投资实验室,就可以将实验室扩展到3线和4线城市,也就是说,机器可以保持收集样品,位于另一个城市的病理学家可以检查数字报告。
SigTuple 将与实验室和医院合作,计划今年推出其产品并扭亏转盈。目前产品正处于血液检测样品的试验阶段,在今年晚些时候会推出尿液和精液样品检测,并计划在未来18个月内与多达150个实验室合作。 此外,还会拓展东南亚和中东市场。
SigTuple 通过销售硬件机器和每个报告的收费进行盈利。目前公司有一个21人的团队,预计到12月成长到50人。
印度类似的公司有Advenio Technosys,Innov4Sight 和The Healthy Billion (Sekhmet Technologies)。AdvenioTechnosys 2016年8月从 Kstart 获得10万美元种子轮融资,并开发了基于人工智能的疾病检测平台。Innov4Sight 和 The Healthy Billion 正在建立数据驱动的解决方案,使现有的医护行业更有效率。这两家公司尚没有融资消息。
数美科技获1000万美元A轮融资
3月2日消息,大数据公司数美科技正式宣布完成1000万美元A轮融资,投资方为顺为资本、清流资本、百度风投和360。360作为数美的首轮战略投资方,本轮继续跟投。本轮融资将用于产品研发、技术创新、市场拓展和人才引进等方面,为客户提供更优质的产品和服务。
数美创始人唐会军表示:企业在拥抱互联网、拥抱云的过程中,普遍面临各种愈演愈烈的欺诈威胁,数美的技术优势和数据资源能有效帮助客户打击各种欺诈行为,提升产品用户体验,降低企业资金风险。
数美科技成立于2015年8月,公司利用人工智能技术和海量数据解决金融、互联网等领域广泛存在的欺诈问题,先后推出了金融反欺诈、内容反欺诈、行为反欺诈等系列产品。2015年12月,公司获得奇虎360的1500万元战略投资。
目前公司已服务数百家客户,覆盖直播、金融、支付、社交、电商、游戏、O2O等行业,其中包括中信银行、360、小米、58同城、爱奇艺、酷狗、用钱宝、点融、挖财、闪银、熊猫TV、花椒、唱吧等企业,并与云服务品牌金山云达成战略合作。
据了解,数美科技创始团队均来自百度、360、腾讯、小米、宜信等互联网公司,在大数据、人工智能、机器学习、金融风控等领域具有丰富的实践经验。
顺为资本创始合伙人许达来表示:“唐会军带领的数美团队能力非常强,反欺诈和征信服务与顺为重点投资的诸多互联网金融公司有很强的协同效应,我们很看好会军的数美团队。希望这次顺为的投资和之后的投后工作能够切实帮助团队更好更快地发展。我们相信,数美有能力为更多行业提供创新有效可落地的反欺诈解决方案,也将成为这个领域独具潜力的领先企业。”
清流资本董事总经理、前百度技术副总裁王梦秋表示:“大数据挖掘从精准垂直刚需应用场景切入才有未来。数美团队对大数据技术及其应用的深刻理解、高效率的执行力,是我们投资的决定因素。”
百度风投合伙人齐玉杰表示:“数美是百度风投的首批投资项目之一,百度风投非常高兴有机会参与数美的投资。数美利用海量数据和人工智能技术为客户提供反欺诈服务,既是移动互联网行业刚需,又是行业痛点。数美取得了很好的进展和突破。我们在调研中也看到客户对数美提供的服务相当满意。数美整体创始团队是一支非常有战斗力的队伍,百度风投非常看好数美今后的发展前景。”
对个人数据安全感到无能为力?Privacy Labs获400万美元种子轮融资
一个帮互联网用户“重新掌控”个人数据的初创公司,PrivacyLabs,获得了400万美元的种子基金。
公司现在还没有发布产品,并且对最终的产品形态讳莫如深。不过它们已经成功说服了Initialized Capital领投。其他投资者还有 Lemnos Labs,Liquid 2 Ventures, CrunchFund*, Fuel Capital和其它天使投资人。
这也许和团队过去的经验有关,特别是此前的成功退出。Privacy Labs由Giri Sreenivas(CEO)和Dirk Sigurdson(CTO)共同创立,总部位于西雅图。他们的上一个创业项目Mobilisafe被信息安全公司Rapid7在2012年收购。去年5月他们离开Rapid7之后,一个月后开始开发Privacy Labs。
Sreenivas说,公司目前正在开发产品、搭建团队,并计划将产品推向市场。对于产品的定位他是这样说的——重新回收数据、重新宣告人们的隐私和安全。
消费者在享受云服务的便利性、访问这些免费服务的同时,不知不觉地交易了他们的数据隐私和安全性。将敏感数据委托给第三方,存在黑客攻击和政府监控的风险。Privacy Labs观察到,当人们越来越多的意识到了使用云服务的利弊得失,却“仍然对个人数据安全感到无能为力”。这是Privacy Labs想要改变的现状。
Sreenivas描绘了一幅图景,却并没有说明具体如何实现,不过我们还是可以发现其它的一些线索。该公司在今年6月创建了一个名为Project Oasis的开源项目,允许用户“从类似Gmail的集中式服务中回收数据,并将数据存储在他们自己的硬件上。”Oasis自动设置从家里运行的Raspberry Pi电子邮件服务器,并提供基于云的组件作为Raspberry Pi服务器的网关。这个云组件是无状态的,所有收到的数据立刻转发到Pi上安全存储。
这个项目让很多人联想到希拉里的私人电子邮件服务器,不过区别于希拉里聘请IT顾问定制的昂贵解决方案,Privacy Labs想要做的是一个安全、简单、易于使用的产品,让每个人都可以访问。
一个帮互联网用户“重新掌控”个人数据的初创公司,Privacy Labs,获得了400万美元的种子基金。
公司现在还没有发布产品,并且对最终的产品形态讳莫如深。不过它们已经成功说服了InitializedCapital领投。其他投资者还有 Lemnos Labs, Liquid 2 Ventures,CrunchFund*, Fuel Capital和其它天使投资人。
这也许和团队过去的经验有关,特别是此前的成功退出。Privacy Labs由GiriSreenivas(CEO)和Dirk Sigurdson(CTO)共同创立,总部位于西雅图。他们的上一个创业项目Mobilisafe被信息安全公司Rapid7在2012年收购。去年5月他们离开Rapid7之后,一个月后开始开发Privacy Labs。
Sreenivas说,公司目前正在开发产品、搭建团队,并计划将产品推向市场。对于产品的定位他是这样说的——重新回收数据、重新宣告人们的隐私和安全。
消费者在享受云服务的便利性、访问这些免费服务的同时,不知不觉地交易了他们的数据隐私和安全性。将敏感数据委托给第三方,存在黑客攻击和政府监控的风险。Privacy Labs观察到,当人们越来越多的意识到了使用云服务的利弊得失,却“仍然对个人数据安全感到无能为力”。这是Privacy Labs想要改变的现状。
Sreenivas描绘了一幅图景,却并没有说明具体如何实现,不过我们还是可以发现其它的一些线索。该公司在今年6月创建了一个名为Project Oasis的开源项目,允许用户“从类似Gmail的集中式服务中回收数据,并将数据存储在他们自己的硬件上。”Oasis自动设置从家里运行的Raspberry Pi电子邮件服务器,并提供基于云的组件作为Raspberry Pi服务器的网关。这个云组件是无状态的,所有收到的数据立刻转发到Pi上安全存储。
这个项目让很多人联想到希拉里的私人电子邮件服务器,不过区别于希拉里聘请IT顾问定制的昂贵解决方案,Privacy Labs想要做的是一个安全、简单、易于使用的产品,让每个人都可以访问。
大咖观点
中国工程院院士李伯虎:智慧制造云中大数据的实践与思考
新的技术革命,新的产业变革正蓄势待发,目前,大家都认为“互联网+”人工智能的时代正在到来。互联网是一种泛在互联网,包括传统互联网、物联网、移动互联网、卫星网、天地一体化网、新一代互联网等。“互联网+人工智能”核心技术的飞速发展正引发应用领域(国民经济、国计民生和国家安全等领域)新模式、新手段和新生态系统的重大变革。
当然制造业也不例外,众所周知,像德国工业4.0计划、美国国家制造业创新网络(NNMI)计划,以及中国制造2025、“互联网+”行动计划,积极推动制造业和互联网深度融合。那么这个核心问题提出来,实际上就是要发展智能制造的技术、产业和应用。
我们这个团队在科技部领导下开展了制造业信息化的工作,在2009年根据当时的情况,我们率先提出了“云制造”理念,开始了以网络化、服务化1.0的研究实践。认识到这个时代的到来后,我们在2012年开始了智慧云制造的工作。
关于智慧云制造,有这么一段话——基于泛在网络,借助新兴(大)制造技术、信息通信技术、智能科学技术及制造应用领域技术等4类技术深度融合的数字化、网络化、智能化技术手段,构成以用户为中心的统一经营的智慧制造资源与能力的服务云(人/机/物/环境/信息互联服务网),使用户通过智慧终端及智慧云制造服务平台便能随时随地按需获取智慧制造资源与能力, 对制造全系统、全生命周期活动(产业链)中的人、机、物、环境、信息进行自主智慧地感知、互联、协同、学习、分析、认知、决策、控制与执行,促使制造全系统及全生命周期活动中的人/组织、经营管理、技术/设备(三要素)及信息流、物流、资金流、知识流、服务流(五流)集成优化;形成一种基于泛在网络,用户为中心,人/机/物/环境/信息融合,互联化、服务化、协同化、个性化(定制化)、柔性化、社会化的智慧制造新模式和”泛在互联、数据驱动、共享服务、跨界融合、自主智慧、万众创新”的新业态;进而高效、优质、节省、绿色、柔性地制造产品和服务用户,提高企业(或集团)的市场竞争能力。
这里面,我们对智慧云的模式、手段、业态、特征、实施内容和目标做了明确规定,并体现了三种深度融合:以用户为核心的人、机、物、环境信息深度融合;数字化、网络化、智能化的深度融合;工业化与信息化的深度融合。
智慧云制造特别体现在,基于大数据的一种并行、协同、实时、互联、智能地一种创新。
根据这样一个理念所构成的系统,我们把它叫做智慧云制造系统,或者叫智慧制造云,或工业云,或工业互联网。这样一个系统首先要提出概念模型,包含三部分:一个是智慧制造的资源、能力和产品;第二就是智慧制造云;第三个就是制造的全生命周期的应用。一个核心就是智慧云制造的平台,有三类人员——服务的提供者、服务使用者和云的应用者。作为一个企业,可以兼顾三者。
在这样一个概念模型下,我们提出整个体系结构,智慧云制造系统实质是一种基于泛在网络及其组合的、人/机/物/环境/信息深度融合的、提供智慧制造资源与智慧能力随时随地按需服务的智慧制造服务互联系统。它就是一种“互联网(云)+智慧制造资源与能力”的人/机/物/环境/信息的智慧互联制造系统。
关于大数据的情况,首先要谈及制造云中间大数据的来源,这里面包括制造全生命周期的数据、企业经营的管理数据和技术产品设备的数据。我们可以把它分成结构化、非结构化和半结构化,或者是混合结构化的数据,也可以从频度来分,有静态的、动态的和实时的。
智慧制造云对大数据很重要,我们有六大类技术作支撑。这六大类技术简单说,在智慧制造云里面对大数据能够进行清洗,能够实现海量数据分布式的存储,以及对各类存储数据的快速访问。大数据的分析要求它以应用目标为导向,找出相应的特殊算法,以及模型。可视化能够综合处理显示多纬度数据,进行强烈的交互,而对多类型标准的需求十分迫切。安全隐私保护、追溯保护,特别是商业安全,也尤为重要。
还有很重要的一个方面是云化,数据的云化叫DaaS,有些数据在模型里通过SaaS提供服务,这里面涉及高性能技术、云处理等等。数据分析对历史数据、实时数据的描述、规定、预测进行分析,里面采用分布式计算引擎、各种各样的智能算法,包括机器学习和交互式分析。
在可视化方面,我们可以做出设备健康的曲线、设备多维的智能预警以及制造活动的趋势预测等等。根据我们目前的平台和技术体系,目前有很多应用范例,如航天电缆数据化设计、医药研发的数据化的设计。
通过我们的实践,大数据的确是一种战略资源,它是智慧制造的一个基础。它的研究和实践,我觉得应该重视基础理论、算法、决策分析问题的持续研究。重视大数据不能光靠大数据,人工智能技术、系统工程技术等都需要进行深度融合。我们还应重视大数据制造全生命周期各种各样活动的管理模式手段技术,重视共享经济的商业模式研究,重视安全技术和相关的标准。(本文来源于“2016中国软件大会”嘉宾演讲)
一个数据理想主义者的自白:开放让社会更公平
2月28日,复旦大学新闻学院主办了数据侠实验室第10期的讲座,邀请到了Rufus Pollock博士来系统阐述了他的观点。
人们对数据可能并不陌生,购物时的刷卡消费、出行的交通记录、手机的上网信息、数字音乐电影等都是数据,这些概念和我们的生活息息相关。但现实是,这些数据并不是开放数据:它们极具价值,却只能被一小部分人利用;它们极易传播,普通人却很难触及。
作为国际非营利性组织“开放知识” (Open Knowledge)的创始人兼主席,Rufus认为数字时代并不应该是这样子的——数据应该让社会更加公平和富有,而不是愤怒和不安。
一身休闲西装,里面穿着印有“开放知识”(OpenKnowledge)图标的文化T恤,讲台上的RufusPollock正声情并茂地为人们解释着开放数字经济的概念:开放,是数字时代人类唯一正确的选择。
“世界的贫富分化是以数字经济的封闭为起点。上个世纪七十年代,苹果、微软、英特尔等一些列数字公司开始崛起,它们创造了封闭的数字经济。”Rufus认为,少数大机构主观排他性地控制了信息,其他人都需要向大机构付费才可以使用这些数据资源。这种封闭的数字经济,某种程度上导致了世界贫富差距的拉大。所以,他要推动数据开放,Rufus说:“要让每个人都能自由地使用数据。”
不过,Rufus并不是一开始就想到这些的。在剑桥念经济学博士的时候,作为一个经济学家,他的研究方向主要是知识产权政策的理论创新及其影响。有意思的是,“知识产权”和“开放数据”听起来是两个完全对立的概念。保护知识产权就意味着人们要向信息的创造者付费,在这种条件下自然催生出了控制信息的垄断企业;但另一方面,开放数据又鼓励人们自由地接触和使用数据,打破封闭数据的壁垒。
要理解Rufus的观点,首先要明白什么是数字技术。
“数字技术的本质在于免费地无限复制。”Rufus说,“在传统的经济模式下,如果我穿了一双鞋,我没办法给第二个人同时穿这双鞋。但是在数字时代,我看了一部电影,我可以立刻同时给第二个人看这部电影……给第一万个人看,我要做的不过是轻击鼠标点一下复制。”他认为,数字技术区别传统经济模式的本质,就是让边际成本降低为零。那些大企业在封闭的数字环境下,可以一本万利地收割财富;而这对于社会大多数人来说,是不公平的。
Rufus口中的“开放数据”,是一类可以被任何人免费使用、再利用、再分发的数据——在其限制上,顶多是要求署名和使用类似的协议再分发。开放数据的核心是数据的“互用性”,大家都可以方便地获取、利用和再分发这些数据,让不同组织和系统有共同合作的可能,而不会遇到“巴别塔困境”。开放的数据环境能够孕育更多更好的产品和服务。
但是,开放数据不等同于“盗版”。在Rufus看来,开放数据代表了一整套完整的经济模式:

(图片说明:开放数字经济模式;图片来源:Rufus Pollock)
在这个模型中,Rufus设想会有一个创新市场基金组织,它能够对数据进行管理和运作。任何人都有机会接触到开放数据,只要付费一次,就可以使用所有数据资源。基金收入的金钱又会反过来,鼓励那些利用开放数据创造优秀产品和服务的创新人士,形成一个良性闭环。
Rufus希望能够通过这种开放数据的经济模式,建立一个数字平权的世界,减小由大企业封闭发展造成的数字鸿沟和社会贫富差距。
这种“付费一次,无限使用”的模式,有时会让DT君联想到北欧的“海盗精神”。如果说Rufus是一个“数字海盗”的话,那他一定是一个“文武双全”的海盗:“文”可坐而论道,大谈开放数字经济;“武”可上手代码,分分钟写出影响世界的软件。
如今风靡全球的公开数据库管理系统CKAN,就是他参与创作完成的。包括英国政府在内,全球由几十个国家政府部门和国际组织都在使用这个数据库软件。更重要的是,Rufus开源了这款软件,任何人都可以根据自己的需求在原始模型上进行修改和创新。
CKAN的成功,一定程度上印证了Rufus开放数字经济模式的可行性。

(图片说明:开源数据库管理系统CKAN;图片来源:CKAN)
不仅如此,开放数据对于保障公众权利,促进社会的公平正义也有重要的意义。2016年,美国《亚特兰大宪法报》的深度报道“医生与性侵”,揭露了美国49个州的医生性侵病人的问题。这一严重的社会问题,正是记者们从公开的全国医疗系统数据中发现的。
“开放意味着人人有更多的工作机会,意味着每个人都能有更好的生活,意味着大家都能有更平等的交易。开放让社会更加公平、自由、富有。”在演讲的最后,Rufus再一次呼吁了对开放数据的热切期盼,“因为我们仍然在一个封闭的数字环境中”,Rufus如是说。
案例分享
七个改变全球健康走向的沉浸式数据可视化方案
随着大数据的发展,数据可视化能帮助我们将大多数复杂的事实和数字转化为清晰明了的故事,帮助我们做更深入的研究,并提升我们对重要事项的关注度。
对于公众健康问题,尤其是数据,可以帮助观测者和研究者消化医学信息,追踪疾病发展趋势以及爆发特点,最终更容易找出需求量大的治愈方法。
从埃博拉病毒爆发到全球营养问题,以下是近期的的七个关于健康和医学的数据可视化案例。
1非洲西部埃博拉病毒的爆发

HDX创造了这个关于埃博拉病毒爆发的最新的数据可视化方案,数据来源于联合国埃博拉应急响应团和世界健康组织等,这些信息已经被国家和区域销毁,销毁的信息还包括治疗中心的总数、人们接收的食物帮助和回应计划的覆盖范围。
2生命期望和死亡率

这个来自华盛顿大学关于卫生计量与评估(IHME)的项目阐述了188个国家在1990至2013年间生命期望和死亡率是如何改变的。
3千年发展目标

千年发展目标(MDGs)是联合国在2015年的目标日期前为了解决一系列全球问题的蓝图,包括一些健康相关的问题。这个图表同样由IHME制作,包括儿童死亡率、母体死亡率、HIV和艾滋病的蔓延、疟疾以及肺结核的大量数据。
4新艾滋病病毒调查分析

HIV统一体概念源自AIDSVu的交互式地图,是一个基于埃默里大学罗林斯公共卫生学院的项目。它展示了早期HIV分析调查、晚期HIV分析调查、HIV关注和参与度关系等。
使用者可以观看亚特兰大、芝加哥、新奥尔良、费城和华盛顿的城市细节数据,并且可以通过性别、种族、种族划分以及年龄进行筛选。
5疫苗可抑制的疾病爆发

随着2015年1月从迪士尼乐园开始蔓延的麻疹爆发,一个围绕接种疫苗的重要性的热议再次引起争论。
由外交关系委员会的全球健康项目制作的这个数据可视化方案,绘制了全球麻疹、腮腺炎、百日咳、小儿麻痹症、风疹以及其他可预防的疾病的爆发情况。
6超重和肥胖数据模型

IHME于2014年5月发布了这个交互式图表,强调了全球性超重和肥胖问题在1980年至2013年之间出生的成年人的普遍性。数据来自大量的调查、报道和已发布的课题。
7营养失调和其他健康问题

国际粮食政策研究所(IFPRI)于2014年11月发布了它的第一例年度全球营养报告,这是一个基于世界营养状况的综合分析。这个数据可视化方案使用了报道中的信息,阐述了全球普遍营养失调的一些类型。
美国的数据交易产业是怎样发展的?
近年来,各国加紧推进大数据的资产化、有价化,探索对大数据进行计价、赋值、交易。参照美国数据经纪产业发展模式,以数据开放共享推动大数据交易资源建设,以交易和产品双足运行推动大数据交易时新发展,可能是我国未来大数据交易产业健康良性发展的可选之路。
美国数据交易的典型模式
美国数据资产交易主要有三种模式。
第一种是数据平台 C2B 分销模式。用户将自己的个人数据贡献给数据平台,数据平台向用户给付一定数额的商品、货币、服务等价物或者优惠、打折、积分等对价利益。
第二种是数据平台 B2B 集中销售模式。数据平台以中间代理人身份为数据提供方和数据购买方提供数据交易撮合服务,数据提供方、数据购买方都是经交易平台审核认证、自愿从事数据买卖的实体公司;数据提供方往往选择一种交易平台支持的交易方式对数据自行定价出售,并按特定交易方式设定数据售卖期限及使用和转让条件。美国微软 Azure、Datamarket、Factual、Infochimps 等数据中间平台代理数据提供方、数据购买方进行的数据买卖活动,大多属于此类模式。
第三种是数据平台 B2B2C 分销集销混合模式。数据平台以数据经纪商(data broker)身份,收集用户个人数据并将其转让、共享与他人,主要以安客诚(Acxiom)、 Corelogic、Datalogix、eBureau、ID Analytics、Intelius、PeekYou、Rapleaf、Recorded Future等数据经纪商为代表。
美国数据经纪商产业发展现状。在美国数据交易的三种主要模式中,第三种数据平台 B2B2C 分销集销混合模式发展迅速,目前已经形成相当市场规模,塑造了在美国数据产业中占据重要地位的数据经纪产业。
美国九大数据经纪商
Acxiom。为市场营销和欺诈侦探提供用户数据和分析服务,数据库中包括了全球范围内7亿用户的个人数据,其中包括涉及几乎每个美国用户的3000条数据段。
Corelogic。向商业和政府机构提供包括财产信息、消费信息和金融信息在内的用户数据及其分析服务,其数据库中包含7.95亿条资产交易历史数据、9300万条抵押贷款申请信息以及涵盖99%以上美国住宅物业的1.47亿条特定资产信息。
Datalogix。向商业机构提供涵盖几乎每个美国家庭、涉及金额超过1万亿美元以上的用户交易信息。2012年9月,Facebook 宣布与 Datalogix 建立合作伙伴关系,以便评测其10亿用户在社交网站上浏览某一产品广告的频次与其在某一实体零售店完成购买交易之间的关联关系。
eBureau。向营销商、金融公司、在线零售商以及其他商业主体提供预测评级和数据分析服务,最早只是分析某人是否可能成为潜在的优质客户或者某笔交易是否存在商业欺诈,后来发展为向其客户提供数以亿计的用户消费记录,而且每月还以300万条新增消费记录的速度在急速增长。
IDAnalytics。主要提供以身份认证、交易欺诈检测和认证为目的的数据分析服务,其认证网络中包括了数以百亿计的数据集成点(aggregated data points)、11亿条独特的身份数据元素,涵盖了14亿条用户交易信息。
Intelius。向商业机构和客户提供背景调查和公开记录信息,其数据库中包含了200亿条以上的公开记录信息(public record information)。
PeekYou。拥有能够分析60家社交媒体网站、新闻来源、网站主页、博客平台内容的专利技术,向客户提供详细的用户配置文件(consumer profiles)。
Rapleaf。是一家数据集成商,拥有一个以上能够连接超过80%以上美国用户电子邮件地址的数据点以及30个其他类型的数据点,并且不断在其电子邮件地址列表中增补电子邮件用户年龄、性别、婚姻状况等信息。
RecordedFuture。通过互联网捕捉用户和企业的各类历史数据,利用该类历史数据分析用户和企业的未来行为轨迹,截至2014年5月,已经实现对502,591家不同开放互联网站点各类信息的接入和抓取功能。
美国数据经纪商从哪采集数据
美国数据经纪商不是直接从用户处收集数据,而是主要通过政府来源、商业来源和其他公开可用来源等三个途径收集数据。由于一个数据经纪商只能提供一个用户行为轨迹所需的很少数据元素,因此数据经纪商必须将其所掌握的数据汇集起来,描绘出用户生活更加复杂的多维图景。
联邦政府数据源。上述9家数据经纪商中的6家直接从联邦政府渠道获得其所需要的数据。
地方政府数据源。有些数据经纪商并非直接从地方政府获取其所需要的数据,而是通过其他数据经纪商获取其所需要的地方政府数据,后者往往通过雇佣人员对地方政府官员展开公关,以便获取对地方政府数据进行编纂和整理的机会;或者与地方政府具有业务往来关系,地方政府同意其在业务往来中自动收集、获取地方政府数据。
共数据源(包括社交、博客、互联网等)。一半以上数据经纪商表示他们收集通信录、电话本、新闻报道等其他可用公共数据。
商业数据源。除1家数据经纪商外,其余9家数据经纪商都通过广泛的商业渠道来购买其所需要的用户个人数据。例如,数据经纪商从零售商、产品目录公司等渠道购买详细的商品交易信息,部分数据经纪商还从期刊发行商那里购买详细的用户订阅类型。
互为数据源。数据经纪商的绝大多数商业数据源实际上来自上述9家数据经纪商之外的其他数据经纪商。部分数据经纪商共享同一数据源,每一家数据经纪商都能从不同数据源收集到相同或相近的数据。
美国数据经纪商的产品类型
数据经纪商通常提供市场营销产品、风险控制产品和人员搜索产品等三类数据应用产品。2012年9家主要数据经纪商的三类主要数据产品全年总收入大约为4.26亿美元。
市场营销产品
有5家数据经纪商面向其客户销售自己的市场营销产品,2012年全年营业总收入大约为1.96亿美元。美国联邦贸易委员会(FTC)将数据经纪商的数据营销产品分为下列几类:
第一类是直销产品。包括邮件、电话营销、电子邮件营销等三类;
第二类是在线营销产品。包括通过互联网向用户进行营销(互联网营销)、通过移动设备向用户营销(移动营销)以及通过有线电视和卫星电视向用户营销(有线电视卫星电视营销)等三类;
第三类是营销分析。所有这三类产品都能使数据经纪商的客户面向其客户量身定制各类市场营销信息。
风险控制产品
接受调查的10家数据经纪商中有4家面向市场销售其自己开发的风险控制产品,2012年的年收入总额为1.77亿美元。美国联邦贸易委员会(FTC)将风险控制产品分为身份认证产品和欺诈侦测产品两类。
人员搜寻产品
上述9家数据经纪商中有3家面向市场销售其自己开发的人员搜寻产品,2012年的年收入总额为0.52亿美元。人员搜寻产品主要提供用户个人数据,这类产品能使用户基于最少的数据元素便能发现最多的用户相关信息。数据经纪商通常会提醒用户不要将上述个人数据用于《公平信用报告法案(FCRA) 》规定以外的其他目的,包括就业资格认定、信用评级、保险费评定、房屋买卖以及其他类似或相同目的。
美国数据经纪的产业特征
美国数据经纪商有如下产业特征:
数据经纪商通过多种信源广泛收集用户个人信息,绝大多数情况下用户对此并不知情。
数据经纪产业由多层互为提供数据的数据经纪商所组成。数据经纪商不仅为终端用户提供数据,同时也互相互为提供数据。
数据经纪商收集、存储着海量数据元素,几乎覆盖了每个美国用户。
数据经纪商联结并分析用户数据,以便做出包括潜在敏感推理在内的用户推理。数据经纪商从用户数据中推理用户兴趣,根据用户兴趣结合其他信息对用户进行分类。
数据经纪商将线上线下数据与市场用户的在线数据相结合。数据经纪商依托网站注册功能和浏览器 cookies 抓取跟踪功能来发现用户在线行为轨迹,推理用户离线行为特征并向其推送在线互联网广告。
美国数据经纪产业的利弊分析
用户能从数据经纪商收集、使用数据的众多目的中真正获益。数据经纪产品能够预防欺诈、增加产品销量、向用户推送量身定制的广告。
许多数据的收集和使用行为对用户造成一定程度的风险。如果用户因数据经纪商的错误而不能完成一项风险控制产品的交易,用户往往因不知情而使自己受损。
数据经纪商一定程度上会向用户提供其个人数据的选择权,但是这些选择权绝大多数情况下是不完整、不可兑现的。用户通常情况下不知在哪里去行使其选择权或者不知如何行使选择权。
储存用户数据永远都具有不可预知的安全风险。虽然存储数据对于实现未来商业目的是有益的,但是数据存储的安全风险可能要远远大于其商业利益。
来源:网络
整理:东软管理咨询
◆◆◆ ◆◆
东软管理咨询


咨在改变 询之有道
Business Oriented Internet
上海 北京 南京 广州 沈阳

共有条评论 网友评论