王鹏:捕捉数据之光
2022-01-21李刚
李 刚
王鹏在巴黎
在复旦大学计算机科学技术学院,有一个人每天早晨不到7点,就早早来到办公室忙碌,有时是查阅科研资料,有时是处理未完成的工作,有时只是静静思考一些科研中没有解决的难点,他就是复旦大学计算机科学技术学院教授王鹏。
办公室可以说是王鹏最常“打卡”的地方,他每天都要处理大大小小多达几十件事情,弦绷得紧紧的,有时候忙起来经常不知早晚。尽管做的工作很费脑筋,神经时常处于高度紧张状态,但对王鹏来说,能够做有意义的事情,就是自身价值的最好体现。
多年来,王鹏一直在工业物联网大数据、智能运维等研究方向上潜心钻研。他带领团队对数据进行高效的收集、存储、处理和应用,充分发挥出数据应有的作用。“我们所做的研究一来是要对工业大数据进行管理,包括如何存储、查询数据;二来就是要对收集到的数据进行分析,比如工业生产中遇到故障需检测时,这就需要通过对数据进行分析来发现和诊断故障。”简短几句话,看似王鹏已经将自己的科研工作介绍完毕,但背后往往是常人难以想象的付出与坚持。尤其近年来,“大数据”一词“火”遍国内外,其影响力之大,已经渗透到各行各业。在各种数据呈爆炸性增长的同时,传感器网络、物联网、云数据中心、移动互联网等多种新技术的发展也相应推动了监测型应用的快速发展,并迅速积累了海量的监测型时间序列历史数据,这对如何高效查询和分析处理这些数据提出了更高要求。“如何快速查询处理数据和有效分析数据,是我们正在做也一直会做的事情。”王鹏坚定地表示。
开端:探究数据
采访过程中,“数据管理”是王鹏提到次数最多的词。要知道,过去计算机一般都以计算为中心,而近年来,众多领域的专家学者都逐渐认识到了数据的重要性。在新的科学时代面前,传感器网络和物联网、工业4.0、云数据中心、移动互联网等一大批新技术得到了快速发展,也造成了机器产生的时序数据的爆发式增长。面对大规模的监测型时间序列历史数据,科学家意识到数据的应用早已超过传统计算的范围,从这些海量数据中寻找科学规律,并对数据进行高效的查询和分析处理变得越来越重要,这也正是王鹏团队亟须解决的问题。
王鹏表示,机器产生的数据和互联网上的主要由人产生的数据存在很多的不同。对海量机器数据的加工和处理存在着诸多困难。之前大多数做法仅是将数据收集到数据库里,收集之后却不知该如何处理。这些数据不仅不能发挥作用,反而会成为新的负担。并且,机器数据有其独特之处。在监测型应用中被监测的对象不仅结构复杂多样,其数据还具有海量、异构、低质等特性,这些特点无疑对数据的管理、查询和分析都提出了更大的挑战。
科研中遇到的困难和挑战并不可怕,王鹏从2016年开始,就带领团队展开对国家自然科学基金“大规模监测型时间序列历史数据的查询和分析关键技术研究”这一项目的探索,希望能在监测型时序数据的处理和大数据查询分析等方面寻找到新的突破。
谈起与数据打交道,王鹏回忆:那是源于进入21世纪后,以物联网、云计算、移动互联网为代表的新一代信息技术快速发展,他发现研究数据对未来多种行业的发展很有必要。恰巧那时“智慧城市”兴起,它同样是一种运用新一代信息集成技术促进城市规划、建设、管理和服务智慧化的新理论和新模式。大数据在“智慧城市”建设中扮演很重要的角色,王鹏介绍,他所做的项目研究与“智慧城市”有异曲同工之处。例如,团队以桥梁为研究对象,他们基于桥梁健康监测等实际应用需求出发,分别从统一的数据表示模型、数据组织方式、查询处理和分析处理4个方面展开研究。几年来团队所做的努力对监测型数据处理和大数据查询分析研究产生了重要的推动作用,并应用到多个大型桥梁上,为桥梁的健康养护提供了快速的数据支持。
王鹏在德国参加达堡论坛时与参会人员的合影
发展:深入挖掘
数据作为重要且宝贵的资源与财富,不仅是科研的战略高地,也正在一点点改变科研工作者的研究方式,通过对大数据的深入挖掘,取得新的科学发现已经成为数据研究领域的主流研究手段,诸如人类基因组计划、全球变化研究等,浩瀚的数据量正不断产生着重要的科学发现。
近几年来,王鹏团队取得的重要科学发现集中于针对时序数据的查询和分析,他们所研究的时间序列数据是在一系列的时间点上所观测到的数值序列,其广泛存在于商业、金融及科学研究等多个领域。而监测型时间序列数据,可简单看做是通过外部的表征现象来观测被监测对象的内部机理,这种观测最主要的目的是要在时间序列数据、被监测对象内部状态和外部影响因素三者之间建立起一座查询与分析的桥梁,进而了解被监测对象的内部状态和外部影响因素。
为了搭建好观测数据之桥,研究过程中,王鹏团队一一克服了被监测对象规模庞大、结构复杂、状态多样等多种难题。“其中监测型时间序列数据的复杂性为我们对数据的查询与分析带来极大的挑战。”回想起那段集体奋战的日子,王鹏仍历历在目。他提到,监测型时间序列数据的复杂性主要表现为海量、异构、低质3方面,想要在实际应用中对海量的监测型时间序列进行处理,就需要针对这3方面复杂性表现,建立一种集内部状态、外部影响因素于一体的数据统一表示模型,并在此基础上进一步研究高效的分布式数据组织技术、查询处理技术和分析技术,从而建立相应的原型系统,来实现对海量监测型时间序列的处理需求。
为此,在王鹏团队的努力下,他们在时间序列数据处理方面取得了多项研究成果。团队在时间序列相似性查询方面提出的DSTree、KV-match等方法,受到国际同行的认可,在数据库顶级会议VLDB上,团队发表的综述论文提出的DSTree索引被推荐为相似性查询的最佳算法。并且,因为在该领域的贡献,王鹏被邀请参加了2019年在德国举办的以“Data Series Management(序列数据管理)”为主题的达堡论坛(Dagstuhl Seminar)。达堡论坛是世界顶级的计算机领域研讨论坛。王鹏团队提出的pHMM时间序列状态切分发表在数据库领域顶级会议SIGMOD上,并在后续的多个领域Tutorial(教程指南)上被介绍。
前行:走向应用
新技术的研发是为了什么?在王鹏心中,没有什么比研究成果落地更重要的了。团队提出的分类算法、相似查询算法、状态切分算法等,相继应用到高铁、船舶、卫星、桥梁等多个重要制造领域和基础设施领域。例如,在高铁轨道的异常检测中,被用于轨道多波不平顺、路基拱起等多种异常情况;在卫星测试中,被用于进行卫星工况的自动识别和阈值动态调整。
为了让大数据分析的理论和算法的珍贵科研果实有更广泛的实用价值,王鹏近年来也在思考如何形成面向个性化、服务化和智能化等模式的企业制造大数据分析算法库及开发系统,以及系统开发成功后又该怎么与企业特点相结合,以此来解决企业在实际应用过程中出现的问题。
从2020年开始,王鹏带领团队展开新项目“制造大数据分析关键技术与算法”的研究,目前已经取得一系列阶段性成果。例如,团队针对制造业领域和数据的特点,就制造业大数据中存在的多阶段跨时空尺度等问题进行开拓创新,包括以数据耦合的形态定义为基础,梳理和研究制造领域数据耦合关联的整体分类和方法等,相关方法可以为离散和流程制造领域中的预测性维护、异常诊断溯源等提供一种新的解决方法。团队还创新性地将机理和数据模型两者融合在一起,为制造业中装备的缺陷检测、故障溯源、性能预测评估等提供了一种有针对性的精准服务模式。
在王鹏看来,科研团队的成长与进步离不了“创新”二字。在团队培养方面,王鹏也时常强调要用创新的思维展开研究,同时,创新也要务实,要能切实解决实际问题。这种思想也被带进了王鹏的教学中,形成了一套清晰的教学逻辑。“培养学生就要让学生明白自己在做哪些研究,需要解决哪些问题,这样才能有针对性地去创新,去思考,明白该从哪些角度研发新技术来解决问题。”王鹏表示。
从事数据管理与分析的这些年,数据时时刻刻都在王鹏的头脑中盘旋,他也一直想要在数据管理与分析的研究中找到更多的突破口。马克思曾说过:“在科学上没有平坦的大道,只有不畏劳苦沿着陡峭山路攀登的人,才有希望达到光辉的顶点。”时光匆匆,尽管已经研究数据多年,但王鹏追寻数据光亮的赤忱始终未变,他也会带着最宝贵的科研初心,继续沿着数据之光前行。