工业大数据工程:系统、方法与实践
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.4.3 面向领域的工业大数据系统技术

为应对多样化的工业大数据需求,工业大数据系统宜采用层次化的建设方法,如图1-13所示。在充分融合通用大数据技术社区的基础上,开发针对工业特色的算法库、计算框架和物联网数据库技术,在此之上,针对典型工业大数据应用领域(例如,设备健康与诊断、生产质量管理、生产效率优化等),形成领域算子库、领域模型和分析建模环境;在此之上,针对行业对内容进行进一步具象化;这样企业的大数据应用,可以基于底层的共性内容组合出来,形成基于资产的敏捷模型研发。

图1-13 工业大数据系统的层次化建设方法

1.多源异构数据汇集与处理技术与系统

通过面向工业数据存储优化的工业大数据技术,实现多源异构数据的一体化、低成本、分布式存储;通过面向工业大数据分析负载优化的存储读写技术,实现分析工具对数据的高效存取;通过一体化元数据技术,实现对时序数据、关系数据和对象数据的工业语义化组织与高效检索。

针对跨领域协作效率低的共性挑战,将海量异构的数据变成有领域语义的信息资源,将丰富非结构化的知识变成可扩展的形式化模型,将模型研发与部署运行运维一体化,支撑工业企业的自主研发能力建设。

2.低门槛工业大数据分析建模环境

为适配领域专家的技能,建模方式最好是组装式建模,基于大量内置的算子,根据业务问题进行配置和建模;或者基于丰富的行业分析案例或分析模型,快速适配当前问题。在模型测试方面,采用“大数据与小数据”无缝切换的方式,开发和调试可以在本地的小数据集上进行,运行在大数据集上出现异常后,能将异常上下文以数据文件的形式提供到本地调试。基于这样的非侵入式并行化技术,大量的现有分析模型资产可通过低代码方式迁移到大数据环境。同时,为保证技术资源的可持续性,要融入Python、R、MATLAB等技术社区,一方面可以借用社区的资源和力量,另一方面,也可以保证社区资产的利用。

大数据平台也需要支持已有分析模型的快速成熟。很多工业企业积累了不少单机分析模型(如MATLAB、Python、R),但缺乏在大数据集上的验证工作。经典的大数据并行化分析系统要求重新编写分析程序,但其算法库(如MLlib、FlinkML)对工业分析方法(如信号处理、系统辨识等)的支持有限。在很多工业分析场景中,并行化数据通常是按照有明确业务语义的字段来分组的(如风功率曲线计算按照风机、月份进行并行化)。因此,工业大数据平台应该支持非侵入式的MATLAB、Python、R并行化,用户只需指定可并行化分组的数据字段,并对单机分析程序做简单适配,就可以直接将分析模型甩到大数据平台上做全量并行化,通过大数据的迭代去伪存真,探究海量数据背后的一般性规律,实现企业已有分析资产和实践经验的快速变现。这就需要分析引擎能够将分析模型与计算模式(批计算、流计算)、运行环境(集群、单机)、数据源独立开来,这样研发的模型可以实现多现场部署。

3.数据应用的低代码开发工具

工业数据应用与信息化中的业务应用有很大不同。首先,数据应用支持关键决策,业务流程很短,主要集中在决策结果可视化方面;其次,数据应用背后依赖很重的数据上下文,需要明确数据模型抽象;另外,依赖包多,运行环境差异大;最后,数据应用的运行环境差异大,可运行在中心端的分布式环境,也可运行在边侧的单机环境。这些差异也决定了数据应用的低代码开发与业务应用型低代码开发不同。

4.云边协同的分析模型与数据应用运行环境

因为数据安全、数据传输负载等因素,很多工业现场数据不能回传到中心端。这时通常要求分析模型和应用能够运行在边侧。这样就要求大数据计算引擎可以适应异构环境,包括:① 消除模型研发和生产运维的隔离,最好采用同一套代码,避免重复开发;② 支持灵活的部署方法,包括在线的一键部署与离线的基于文件的部署;③ 屏蔽集群、单机等运行环境的差异性;④ 屏蔽流计算、批计算执行方式的差异。


[1]中国电子技术标准化研究院.制造业数字化转型路线图[R].2021.

[2]中信联标准化技术委员会.数字化转型:参考架构,T/AIITRE 10001-2020[S].北京:清华大学出版社,2020.

[3]工业互联网产业联盟.工业大数据技术与应用白皮书[R].北京:工业互联网产业联盟,2017.

[4]王建民.工业大数据软件面临的挑战及应用发展[J].信息通信技术与政策,2020(10):1-5.

[5]田春华,李闯,刘家扬,等.工业大数据分析实践[M].北京:电子工业出版社,2021.

[6]伊泽曼,明奇霍夫.动态系统辨识:导论与应用[M].杨帆,译.北京:机械工业出版社,2016.

[7]REINHART R F,SHAREEF Z,STEIL J J.Hybrid analytical and data-driven modeling for feed-forward robot control[J].Sensors,2017,17(2):311.

[8]LUTTER M,RITTER C,PETERS J.Deep lagrangian networks:using physics as model prior for deep learning[C]//7th International Conference on Learning Representations(ICLR),2019:1-17.

[9]RAISSI M,PERDIKARIS P,KARNIADAKIS G E.Physics-informed neural networks:A deep learning framework for solving forward and inverse problems involving nonlinear partial differential equations[J].Journal of Computational physics,2019,378:686-707.

[10]李凯文,张涛,王锐,等.基于深度强化学习的组合优化研究进展[J].自动化学报,2021,47(11):2521-2537.

[11]SETTLES B.Active Learning[M].Williston,VT:Morgan & Claypool,2012.

[12]RACKAUCKAS C,ANANTHARAMAN R,EDELMAN A,et al.Composing modeling and simulation with machine learning in Julia[C]//Proceedings of the 14th International Modelica Conference,2021:97-107.

[13]BAI S,KOLTER J Z,KOLTUN V.Deep equilibrium models[C]//Proceedings of the 33rd International Conference on Neural Information Processing Systems,2019:690-701.

[14]BAI S,KOLTER J Z,KOLTUN V.Deep equilibrium models[C]//Proceedings of the 33rd International Conference on Neural Information Processing Systems,2019:690-701.

[15]GOLDFARB A,TUCKER C.Digital Economics[J].Journal of economic literature,2019,57(1):3-43.

[16]李海舰,赵丽.数据成为生产要素:特征、机制与价值形态演进[J].上海经济研究,2021(8):48-59.

[17]中国电子技术标准化研究院.制造业数字化转型路线图[R].2021.

[18]STRZAŁKO J,GRABSKI J,STEFAŃSKI A,et al.Dynamics of coin tossing is predictable[J].Physics reports,2008,469(2):59-92.

[19]钱学森,等.论系统工程[M].长沙:湖南科学技术出版社,1982.

[20]钱学森,等.论系统工程[M].长沙:湖南科学技术出版社,1982.

[21]中国电子技术标准化研究院.制造业数字化转型路线图[R].2021.

[22]工业互联网产业联盟,大数据系统软件国家工程实验室.工业大数据分析指南[M].北京:电子工业出版社,2019.

[23]ATWAL H.Practical DataOps:delivering agile data science at scale[M].New York,NY:Apress,2019.