宗福季:从加速数字化转型,到建设质量强国(Part Ⅲ 挑战与展望)
2022-12-31
编者按
《从加速数字化转型,到建设质量强国》一文为宗福季教授2022年5月至7月发表于香港科大内地办“教授专栏”上的文章。经作者授权,本刊分三期刊载,本期为该文第三部分。
如今,不只是制造业,医疗保健、教育、零售、金融服务、银行、保险、电信、公共服务行业,特别是医疗保健和教育行业在疫情期间都在加速数字化转型。在这些行业中大数据也面临着挑战:以手机生产为例,从产品开发起,到物料进厂、单板加工、焊接插件、单板装配、老化测试、整机装配,到最后包装发货送到客户手中,每道工序上的机器都能够自动采集数据。将机器及采集到的数据与系统数据库结合,就形成了工业大数据,不过到这一步也只是刚开始。对于大数据而言,我们需要明确目的,是预测、改善质量、做质量控制还是其他一些目的,并据此收集相关数据。此外,在建模中也存在着很多的挑战。
这些挑战虽然看起来在向实际应用靠拢,但其次并不限于应用学科。很多问题虽然目的明确且偏向于应用,但是他们的答案往往包含很多理论。具体来说,工业大数据在质量4.0中面对的挑战如下。
数据完整性的挑战:我们通常感觉数据很多很全,但实际上绝大多数数据是不完整的。每个产品都有很多工序,在每个环节收集数据的目的也各不相同,比如为了进行库存管理进行的数据收集等。数据由于收集的目的不同,往往呈现零散的情况,并且不完整。实际生产过程并不是为了统计建模收集数据。因此,在大多数情况下,我们无法获得所有的相关数据,而如何根据不完整的数据进行统计建模是一个挑战。
数据质量的挑战:有些数据收集会比较精确,但是多数时候数据的质量无法控制。这是由于在收集数据时,有时需要的数据比较粗略,只需要用低成本的方法采集,如手写填表格、目测等方式。即便是最先进的工厂,收集到的数据质量也是有差别的。而不同质量的数据对统计建模造成的影响之一,是导致无法精确建模。数据质量的高低直接影响分析结果的有效性,如果用于企业决策的数据失真,将会导致企业决策与预期目标之间出现偏差。
数据场景的挑战:数据收集的场景包括数据在何时采集、在哪一条生产线采集、采集人是谁、采集机器是哪种、采集状态是什么等一系列问题。比如,星期一早上收集的数据与星期五下午收集的数据就可能有明显差别。这是由于周一上班的人比较懒散、周五下班前的人想匆忙将事情做完导致的。就算是同一个工厂同一条生产线的两台一样的机器,如果购买的时间不一样,机器的关键参数也会有所不同。这些问题都会影响最终的数据判断,进而影响决策判断。在互联网数据的分析框架下,数据场景也许不会分得这么细,但都有具体的质量问题需要解决。因此,数据场景非常重要,而在大部分数据库中这些数据场景都是缺失的。
领域知识的挑战:在长期发展中,各行各业的专业知识大量累积,如何将专业知识与数据建模相结合仍是一个亟待解决的难题。数据技术驱动着各领域专家同时扮演数据专家、算法专家及系统工程师的角色,不仅要熟悉本行业本专业的知识,还要掌握数据建模及分析能力。
数据隐私的挑战:数据隐私对于工业大数据特别重要。通常工业大数据并不是某一个单独公司的数据,包括了许许多多工序的数据。这些数据有些在供应商,有些在客户方手中。但是由于数据涉及到企业机密,有些企业可能不会共享数据。企业数据具有资产性质,能够带来经济价值,并且企业可以通过数据在市场中获取利益。为了获取竞争优势,企业往往不愿意共享资源,但为了获取更多资源又提倡其他主体共享数据。数据隐私不仅仅是道德问题,而且牵扯到其他主体是否愿意共享数据。比如华为手机的制造,涉及产业链上的很多企业,如果这些数据不联合到一起,是很难将工业大数据做到极致的。
样本稀缺的挑战:样本稀缺似乎和目前海量数据的情形相互矛盾。事实上,看起来海量的数据只是一个幻觉。在真正进行数据分析时,我们会发现数据量是不够的。目前,大多数企业的生产线已经成熟,产品不良率极低,数据分布非常不均匀。以六西格玛(6 Sigma)级别为例,在每百万个产品中仅有3个次品。这导致收集的数据中,绝大多数是平稳合格的产品数据,能够用于改善次品信息的不良产品数据量极少。而建模时针对的,恰恰是不良产品。因此,看似海量的数据中真正有效的数据其实极其稀缺。目前针对数据不均衡情况提出的一些解决方法中,有一些解决数据样本比例为1∶9问题的方法,但在实际应用中对这种数据极度稀缺且数据维度很高的问题还没有很好的解决方案。
以上问题可能有些琐碎,但都是实际存在的挑战,且这些挑战对于产业、社会都具有很大影响。如何应对这些挑战,是值得思考和研究的重点。
展望当今世界,质量大数据的思想已经远远超过了工业生产的范畴,在其他领域也得到了广泛的拓展应用。下面介绍3个大数据应用实例,它们在不同程度上运用了质量4.0、质量大数据的思想,并且对实时数据的运用有较高要求,同时存在着部分尚待解决的挑战。
实例A:地铁客流及拥挤度监控
随着智能城市的发展,公共交通服务如URT系统(城市轨道交通系统),在人们的日常通勤和出行中扮演着越来越重要的作用。例如,香港的地铁每天承运超过五百万名乘客。众所周知,突发事件可能导致异常人员流动,最坏的情况还可能导致踩踏事件的发生。这些突发事件可能包括交通事故、交通管制、庆典活动、抗议活动甚至灾难的发生。例如,2014年12月31日上海外滩跨年夜活动曾经发生一起踩踏事件。我们不希望有此类事件再次发生,就需要对人流量与拥挤度进行预测与监控。在这里,强调一定要进行预测,而不是等人流量已经到达警戒线之后再进行警告,那时往往已经太迟。因此,我们需要做到在人流量拥挤到警戒线之前进行预警。
拥挤度预测,对公共交通行业日益重要。我们需要根据乘客流量的数据(进站时间、出站时间、逗留时间等),预测站点发生拥挤的时刻,以便提前采取调流等措施减缓拥挤。在实例中部分站点涉及换乘问题,在建模时也应一并考虑。我们在该项目中获得了人群进出地铁口的数据,也就是说我们知道所有人在何时何地进入地铁站,在何时何地从地铁站走出来。理论上,我们可以知道人在地铁站里如何通行,但由于隐私关系暂时没有获得这方面数据。我们当时获得的数据是一个网状的结构,可以分析在什么时间点、在哪个地铁站可能造成拥挤。这个问题并不像很多人想象得那么简单。数据是网状结构,并不是在某一时间点进站的人多就会造成拥挤,其中包含了换乘乘客与出站乘客。因此,单看进站人数是不准确的,这是一个有趣的建模问题。在这个问题上还有很多内容可以做,比如如果提供了监视器的数据,可以结合不同的数据源对人流量进行预估建模。目前,我们所做的只是一个开端。
实例B:大数据驱动的客户满意度指数——在线数据与问卷数据融合
关于工业大数据框架下客户满意度的调查问题,起源于密歇根大学早年研发出的顾客满意度指数模型。这一框架沿用至今已二十余年,广泛应用于企业、国家层面的顾客满意度指数调查。早期,该指数模型数据来源于调查问卷,而如今顾客满意度不仅可以通过问卷获得,还可以通过诸如社交网络、网页平台等方式获得。同时,对于企业产品不再局限于给出分数,还可以对其进行评论。这些数据是海量实时的,并且问题的数据输入可以是问卷调查形式,也可以是在线评论。
目前存在的问题,是如何融合问卷数据与在线数据。数据融合的形式有多来源和多模态形式。多来源表示不同来源的数据形式,而多模态表示不同形态的数据形式。有些人认为可以不要问卷的数据,只用在线数据,这在目前是行不通的。这不仅因为多模态数据比单模态数据能更好地进行评论有用性预测,而且问卷获得的数据与在线获得的数据数据源是不一样的,获得的信息也不同,用在线数据完全取代问卷数据仍是不可行的。比如问卷调查能收集每个维度的数据,而在线数据只能收集部分维度的数据,有些维度的数据是缺失的。因此,如何进行数据融合仍充满挑战。
实例C:山体滑坡安全监测
该项目背景是统计过程监控观念的延伸。统计过程控制以前只用于生产线的监控,随着大数据技术的发展,现在可以用于更广泛的产业。香港在斜坡管理方面做得比较好,设有斜坡管理署专门管理斜坡的安全,因此香港不少房子是修建在半山上的。但如果斜坡管理不好就可能因为土石流——大量岩石、泥土和碎石流下山坡,导致重大安全事故。
监测斜坡安全的传统方法是定期(一季、一年)挖深洞,以采集土壤数据,研究土壤松弛程度。其缺点是,香港斜坡很多,该方法成本很昂贵,而且获得的数据不是实时数据。我们提供的新方法是采用基于加速度计的传感器系统来监测和预测滑坡。具体方法是在现场设置多个传感器,收集传感器数据,监测有无地面扰动异常,用于预测滑坡发生,以提前采取措施减少事故发生和人员伤亡。目前,我们收集过一些数据,在地震发生时斜坡监控数据有明显不同。如何根据数据监控山体滑坡其实是一个很难的问题,因为它并不是纯粹的数据监控,还涉及土木专业关于土壤建立的一些模型和一些既有指标。由于需要跟土木专业高度结合,所以数据也需要与相关人员协作探索,与土壤性质、山体性质等要素结合使用。虽然进行滑坡和斜坡监测与预测有不小的困难,但却是非常有影响力的重要项目。
综上所述,首先,大数据在工业领域被大量使用,并且其获取几乎是“免费”的、低成本的。但我们对这些数据仅仅做了部分浅层的探索,如何运用这些工业大数据是未来所面临的挑战之一。
其次,在数字化转型范式下,质量和质量专业人员都面临着巨大的机遇。我们可以进一步发掘方法从大数据中创造价值,如数据质量和安全保证、大数据驱动过程和产品质量监控、改进和优化、故障诊断和风险管理、多种非结构化数据源的融合、客户满意度管理、智能预测质量等。
第三,尽管工具在不断发展,数据探索智能化不断提升,但人的参与对充分挖掘工业大数据的潜力仍至关重要。在数据科学和数据分析领域,尤其是在统计建模和机器学习过程中,人扮演着重要角色。例如,数据可视化、建立决策推断系统、将质量专家和高层管理人员的专业知识与实际数据相结合等,都对数据的充分挖掘起到了重要作用。
以上三点都非常重要,尤其是第三点。现在智能化是热点,但在智能化过程中人在扮演什么角色呢?目前,虽然软硬件不断进步,但是人仍在两个方面发挥着重要的功能:一是建立模型,尤其是统计建模、机器学习。如何建立模型、如何进行数据分析,至少在未来二十年之内仍然有很大前景,需要有数据科学专家、统计专家及行业专家将具体场景转化为智能模型。二是如何将人的专业知识与模型结合起来。各行各业在过去累积了海量的专业知识,如何使用不同方法解决问题、如何将这些知识底蕴与现代数据科学相互结合、人的专业技能如何与人工智能强强互补等,都是需要深入探讨的问题。
在质量4.0下,我们面临的不仅仅是机遇,也有挑战。工业大数据在质量4.0发展中的重要作用不可估量,而质量4.0又是建设质量强国路线图上关键的一个阶段。我们应大力发展质量4.0,通过充分利用工业大数据,发掘数据背后的价值,促进产业的数字化,为建设质量强国及转型升级提供新动力。
(全文完)
(部分内容已刊登Tsung, F.,"The Application of Industrial Big Data in Quality Innovation in the Context of Digital Transformation",Journal of Macro-Quality Research,Vol. 9, No. 3, 2021.)