这是大数据系列终结篇,也是我写这一系列文章的最终目标,化学工程和工业才是我的逻辑的落脚点。对其他工业和行业不了解,为免贻笑大方,这里不敢枉谈工业大数据,只谈化学工业中的大数据。
本人博士毕业后,一直在企业从事化工工艺分析、优化和设计,主要手段就是模型,包含机理模型和数据模型。机理模型是基本方法,不用多说,无非是各种平衡,再加点热力学、动力学。数据模型是辅助方法,机理不清时用一用,但在工作中的数据分析和建模,无需多复杂工具,在Excel里可以完成80%的工作,包括可视化、统计分析、多元线性回归和非线性参数回归(真心认为Excel在功能性和使用率上可以排在软件史上前5名),Minitab和其他分析工具也用一用。但是想想,数据挖掘或机器学习的算法那么多,工业生产中工艺和设备数据那么多,怎么机器学习在化学工业几乎就没啥作用呢?也许是自己工作范围比较狭窄吧,没机会看到合适的应用项目,工作几年后基本不再考虑这件事。
这两年,大数据、机器智能在商业领域成功应用,并且成为最热门词汇。我又读了几本这方面的畅销书,重新燃起内心对数据和智能的热情,重新开始思考大数据和机器智能对化学工业的作用。前面系列文章基本将逻辑和基础讲清楚,在写作的过程中,原来比较模糊的认识也渐渐清晰起来。剩下的事情,就是将这些逻辑分析应用在化学工业中。
所以,读者在阅读本文之前,最好阅读一下我之前写的《大数据没那么神秘:技术篇》、《大数据真的无所不能吗?思维篇》系列,以及《化学工业到底Low不Low?》(请关注公众号“古腾伯格”),这些文章为本文打下逻辑基础。简单回顾一下要点:
化学工业早已实现数字化、模型化和自动化,是走在工业4.0道路上前列的工业门类
大数据和机器学习的核心对历史归纳提取规则,从而对未来预测。理论基础是:数据包含了系统运行的重要信息,无须研究问题机理,可以直接从数据挖掘出系统的规律和知识
大数据分析和知识发现是大数据相关技术的核心目标,是体现大数据体现价值的关键
大数据技术尤其适合系统极其复杂(以致难以研究机理)、对系统因果性和可靠性没有严格要求的人类智力活动,例如经济学、商业、医学
基于科学技术领域本质对因果性和可靠性的追求,以及长期对数据的重视和应用,大数据对科学技术的变革程度,从知识发现和提取的角度将是有限的
化学工业到底有哪些数据可用?化学工业对模型可靠性有什么要求?大数据技术在研发、工程设计、生产运行维护以及供应链管理方面会怎样改变化学工业?化学工业离实现工业4.0的道路还有多远?
一、化学工业中的数据来源和特点
《工业大数据白皮书2017版》对工业数据来源做了总结。化学工业同其他工业门类一样,工业数据主要有三类来源,直接引用白皮书原文:
“
第一类是生产经营相关业务数据。主要来自传统企信息化范围,被收集存储在企业信息系统内部,包括传统工业设计和制造类软件、企业资源计划(ERP)、产品生命周期管理(PLM)、供应链管理(SCM )、客户关系管理( CRM )和环境管理系统( EMS )等。通过这)等。通过这些企业信息系统已累计大量的产品研发数据、生产性数据、经营性数据、客户信息数据、物流供应数据和环境数据。此类是工业领域传统的资产,在移动互联网等新技术应用环境下正在逐步扩大范围。
第二类是设备物联数据。主要指工业生产设备和目标产品在物联网运行模式下,实时产生收集的涵盖操作和运行情况、工状状态、环境参数等体现设备和产品运行状态的数据。此类数据是工业大数据新的、增长最快的来源。狭义的工业大数据即指该该类数据,即工业设备和产品快速产生的并且存在时间序列差异的大量数据。
第三类是外部数据。指与工业企生产活动和产品相关的企业外部互联网来源数据,例如,评价企业环境绩效的环境法规、预测产品市场的宏观社会经济数据等。
”
由于化学工业这类过程工业(process industry)基本是连续化生产,便于自动化控制,从上世纪70年代就可由计算机集散控制系统(DCS) 采集用于过程控制与设备状态监控的传感器数据,主要是温度、压力、流量和液位信息,还有部分在线分析的物料组分信息。所以,过程工业(当然包含化学工业)的数据基础非常好,数据存储量高于其他行业,而且增速远高于其他行业。所以,化学工业中的数据来源主要是白皮书中所提的第二类,一个中型化工企业每一秒都有上千个设备和工艺数据产生,第二类数据总量估计要超过总数据量的90%。所以狭义的大数据,就是指这类数据,这类数据的特点有:
高维度 一个化工装置(以一个主要反应为一个装置)大约是1000~5000个传感器,并且每一个传感器高速产生时序数据,并且大部分数据间是关联非独立,甚至呈复共线性
强非线性 过程工业中各类参数之间的关系都是非线性的,主要是由热力学关系、流体力学关系和反应动力学关系导致的非线性,这种强烈的非线性关系给以处理线性关系为主的数据挖掘和知识表示带来了很大的挑战
非正态性和多模态性 由于化工装置为人工设计系统,基本被控制在设计指定状态下运行,数据分布非常集中;有时由于生产任务(例如牌号切换)的变化、外界环境的改变(例如不同原料来源,如原油)等, 会导致正常工况发生改变,具有多模态特性,即数据表现为多个峰
从上世纪90年代起,便有人尝试使用多元统计分析、模式识别、人工神经网络来做装置故障诊断,但是直到今天,结论依旧是大数据技术在过程工业分析中依然处于起步阶段。今天,不管用专业文献检索引擎(ScienceDirect,Google Scholar)还是普通搜索引擎(Google, Bing, Baidu)检索bigdata + process indurstry 或big data + chemical engineering, 检索出来的结果非常少。最好的一篇综述便是秦泗钊 (S.Joe Qin)教授于2014年在AICHE上发表的《ProcessData Analytics in the Era of BigData》,主要还是面向生产过程数据。对该领域感兴趣的读者,这篇文章值得一读。
我之前给出结论是:对这类人工设计且受控稳定运行的系统,大数据的作用非常有限。 但是,如果我们把系统扩大,不要把目光或待优化的系统仅限于设备和生产装置,而把研发、资源管理、产品供应链以及客户信息加入到系统,也就是第一类数据来源,这便是商业和管理这类半科学问题,大数据在化学工业便有所作为。
大数据和机器智能到底会怎样改变化学工业这个话题依然处于探索阶段,并无结论。本文只是依据我本人对数据科学、数学建模、化学工程和工业这些学科的认识和理解,纯属个人见解,但是欢迎读者讨论。
二、化学工业对技术可靠性的要求
工业生产的最终目标是挣钱,制造产品只是手段。一项新技术要应用到化学工业,必须被证明是安全、可靠和高效的。工业生产不是一味追求技术的新颖性,采用一项新技术,第一个问题就是价值何在?第二个问题是技术可行性和可靠性?从一项新技术的技术原理提出,到最终工业化,有诸多的细节需要澄清,有诸多的技术难关需要攻克。即使95%的细节都解决了,然而剩下的5%不解决,这项新技术就难工业化。(有些科研单位,刚提出个技术原理,就敢去说国际先进,不知是无知还是沽名钓誉?)同样,化学工业对大数据技术的要求也是这两个问题,抛开具体价值只谈数据,那是数据库、服务器厂商干的事。
化学工业对一项新技术最重要的两个要求是:安全性和可靠性,效益是再次的要求。有个笑话说明微软和通用汽车对新技术的态度:
“
在一次计算机展览会上,微软公司董事长比尔·盖茨将计算机行业与汽车行业做了一番比较后说:“如果通用汽车公司效法计算机行业不断技术革新,那么我们现在只要花25美元就能买一辆汽车,而且这辆车每加仑汽油可以行驶1000英里。”
对于比尔·盖茨的这番言论,通用汽车公司立即作了回应。他们说,如果通用的技术革新也像微软一样,那么人们现在驾驶的汽车必然会具备如下特点:
1.每天有两次无缘无故地撞车。
2.道路标线重画一次,人们就非得跟着换一次新车。
3.说不准什么时候,汽车就会在高速公路上莫名其妙地“死机”,人们只有重新启动它们后方能继续行驶。
4.有时,任何一个操作步骤比如左拐都有可能引发汽车熄火,而且无法重新启动,惟一的方法只有重新安装引擎。
5.每辆车里只能有一个人,除非你买的是95型或者NT型,但是那样一来,你还得额外添加座位。
6.车里的安全气囊弹出前,会先问:“确定吗?”
”
现在Google无人驾驶上路测试的实际事故率远远低于人类,但是仍然通不过审核,无法商业化,因为现在还是没有足够证据证明无人驾驶是足够安全和可靠的。
微软和通用对可靠性的区别就是商务大数据和工业大数据的区别。如果工业上,有人拿出一个完全黑箱模型去指导生产,我想没有人敢使用它。一个模型至少能部分从机理上解释输入输出的因果关系。大数据技术对工业生产技术只能算是锦上添花!注意:这里仅限于生产运营。
三、大数据和化学工业的研究开发
传统大化工的时代早已经过去,学术界和工业界已经不愿再在传统化工研究和技术上投入太多资源,确实也难以出成果。现在的研究热点是一些交叉学科,将化学工程的理论(反应、传递、热力学、系统工程)应用到其他学科,化学工程正在拓展应用领域,目前热门的方向是基因与生物技术、微电子和半导体、新材料、新能源和储能材料。本人的背景是过程系统工程,并没有接触过这些热门领域,仅凭我对数学、化学工程和工业、工程科学的理解,对大数据在化学工程的研发过程所能起到的作用,作一些猜想。
3.1 研发需求预测
大数据技术对研发活动的最大改变便是预测用户需求,改变远离客户需求的封闭式的研发。传统的研发活动是简单做个市场调查,甚至是研发人员自己想象出一个客户需求(当然革命性的创新需求都是研究人员先自己想象出来的,但是大部分都是渐进式创新),然后在实验室做出模型然后工厂制造出产品,就把东西卖给客户完事了。
由于化工工业的产品几乎很少直接面向消费者,客户基本是工业用户,所以属于B2B。B2B难以使用常见大数据画像技术将消费者分类和挖掘各类的需求,应该将下游客户引入到产品研发中,即开放式创新。关于开放式创新,可以百度“GE如何做到开放式创新”。
如果客户将自己的产品的质量信息开放给上游化工企业,那么化工企业也可以分析并制定一个合适的产品质量标准,并根据下游产品质量信息调整工艺参数和工艺改进而提高自己的产品质量。
3.2 文献阅读与理解
文献阅读在一项研发工作的前期所占时间多并且累人,但是文献阅读可以让研究人员了解研究项目的技术状态和进展,便于研究人员确定技术路线,避免重复性工作。
让机器理解自然语言并提取有效信息,这是人工智能领域一个非常重要的方向,显然技术难度极大。IBM开发的医疗智能系统Watson医生,已经可以理解简单自然语言,分析各种医疗分析数据和医学影像,帮助疾病诊断和治疗。在没有医生干预的条件下,Watson医生仅仅通过阅读病例、倾听病人描述和阅读分析化验报告来诊断病人疾病,已经达到中等医生的水平。
罗胖在2017年跨年演讲中说了一个Watson治疗日本女病人的故事,我又百度了一下,可以查到中文报道,真实性未知。“据日本东京大学报道,近日IBM 人工智能 Watson 利用 10 分钟时间诊断出一名 60 岁女病人患上罕见的急性骨髓性白血病,还找到最适合她的疗法。”“报道称 Watson将病人的基因变化与 2000 万篇癌症研究论文数据库进行比较,提供准确的诊断并且提出先进且适合的治疗方案。”。
如果这个故事是真实的,说明自然语言理解已经指日可待。机器能读医学论文,必然就能读化学、化工文献。
3.3 物质结构-性质的构效关系
人类对于新化学物质(新材料,新药物)的探索,通常是想改进现有产品的功能和性质,例如强度、密度、粘度、挥发性、毒性、活性、靶向性,所以新分子结构的设计都是从所要求产品的性质和性能的技术指标开始。从分子结构到物质性质的映射,便是构效关系,构效关系的研究方法有基团贡献法、分子动力学模拟法等。关于流体常规热力学性质(例如沸点,临界温度,汽化热等)的基团贡献法,最广泛使用的文献便是《 Properties of Gases and Liquinds》,这是热力学界的Bible。
基于机器学习的构效关系很早便应用于化学药物开发中,我在读博士期间便有商业软件。这种方法同样适用于新材料和高分子材料设计,数据容易收集。像美国化学文摘服务社(Chemical Abstracts Service ,CAS)收集了登记物质的分子结构、和常规性质,利用这类覆盖分子结构和物质性质的数据库,构建一个学习系统并不困难。
3.4 有机合成和催化剂设计
2015年,加州大学伯克利分校和犹他大学的科学家团队,在《Science》杂志上撰文,报告了他们通过结合现代数据分析技术与经典物理有机和计算化学,开发出一种新方法来研究利用手性阴离子催化剂生成特定对映体的机制。
“他们利用系统的物理有机趋势分析方法来研究催化剂和底物的取代基效应,确定了底物和催化剂之间相互作用的机理,并通过实验验证了这种方法可以用来高效地探索有机反应机理并优化催化剂的设计。”
由于我对此完全不懂,大家可以自行百度“《Science》:有机合成中的大数据分析”了解细节。
3.5 热力学汽液平衡预测
这是我非常喜欢的一个话题。
热分离(蒸发、精馏、萃取、吸收)是化学工业中组分分离和提纯的主要手段,汽液平衡是热分离设计的主要基础。上万种化学物质之间的两两组合是个庞大的组合数,目前汽液平衡计算主要还是依靠实验数据,热力学理论已经可以将低压实验数据拓展到高压应用,已经是理论的巨大进步。但是遇到一个新的二元组合体系,如果没有实验汽液平衡记录(文献或者数据库),必须设计实验测试数据,工作量巨大,耗时耗力耗钱。化工热力学界一直希望能开发一个预测系统,这个系统能预测一对新出现的二元体系的相平衡(汽液,液液),目前做的最好的相平衡预测系统便是UNIFAC 基团贡献法。UNIFAC从大量的汽液平衡数据中,分解出分子中每种功能团(基团)对相平衡的贡献度。从而,面对一对二元体系,只需将每种组分的拆分成不同基团,再根据基团种类和数量预测相平衡。
这就是一种大数据思维,UNIFAC开发过程所使用的数据量完全够的上大数据的量级。UNIFAC还算不上黑箱模型或者DarkKnowledge,毕竟它模仿了UNIQUAC模型。
胆子大一点,就是用机器学习方法作相平衡预测,把实验点数据库(例如,Detherm数据库收集了文献中的所有原始实验点数据)一起输入到一个深度学习模型,可能预测效果不错。当然这种深度神经网络无法作为模拟系统的热力学引擎,计算量和求导数都非常复杂。一个解决方法便是,首先用学习好的相平衡预测深度网络产生20组新二元体系的相平衡数据,再将这20组数据导入到模拟软件中用普通模型(例如NRTL)作参数回归,这样流程模拟计算,依然可以使用普通热力学模型。
未完待续
欢迎转载,注意版权
版权声明:作者保留全文版权,任何其他公众号转载需取得作者同意。欢迎转载和转发!
-------------------
码字不易,请 支持原创 。长按二维码,加关注,查看其他文章


共有条评论 网友评论