“大图像”时代走向浪潮之巅<br/>——记国家“千人计划”专家、电子科技大学格拉斯哥学院院长曾兵

“大图像”时代走向浪潮之巅
——记国家“千人计划”专家、电子科技大学格拉斯哥学院院长曾兵

2019-06-05祝传海

科学中国人 2019年7期

□ 祝传海

工作中的曾兵

一切回归得那么自然，就像溪水流向湖泊、山峦耸入云雾，世界知名的图像与视频处理专家曾兵，在纵横四海20余年后，将自己的事业完美地嵌入了母校。此时，他已是中、美、欧、日、韩等国8项专利的拥有者、国家“千人计划”特聘专家以及多个著名国际会议和顶级国际期刊的核心成员。

2015年4月，在电子科技大学的国际青年论坛上，曾兵这样描述回归后的生活：“这是一个令人激动的时代，国家的发展正在逐步引领世界大潮，我们有幸能够投入其中。在这样一种环境中，你停不下来，因为你发现，总有这么一种催人奋进的号角在鞭策你前行。”

穿着得体、气宇轩昂，他在讲台中央向世界微笑，代表自己，也代表浪潮之巅的民族科技力量。

远行：极目天下逐浪高

银杏、白鹭、花海、湖光。电子科技大学拉开了与闹市的距离，清雅中更可窥见学术空间的独立与开阔。

1979年，年仅15岁的高考状元曾兵，进入这所学校的前身——成都电讯工程学院。“当时报考国内任何一所高校都可以去，不过家人不愿意放手让我出去闯荡，就留在了成都，成电的电讯电子专业是出类拔萃的。”

本科、硕士、留校任教……水到渠成。早慧少年成长为青年学者，世俗自有一套平稳妥帖的成功标准，但是逮到一个机会，曾兵还是“跑”了。1988年，他放弃了母校的教职，进入芬兰坦佩雷理工大学，攻读博士学位。之后先后进入加拿大多伦多大学、蒙特利尔协和大学做博士后研究。“那个时代，国内的信息还不够灵通，毕竟跟外面脱节了这么多年，图书馆查到的资料也相对落后。我们当年的导师追求是很高的，但他们能带出来的一些研究方向和题目并不一定跟国际前沿吻合。我们到了国外很快就眼睛大亮，别人在做什么我们终于清楚了。”

1993年，在奠定了一定的研究基础之后，曾兵加入了香港科技大学，先后担任电子及计算机工程系助理教授、副教授、教授，期间，还在微软中国研究院任研究员。在香港的20年，他培养出数十位博士、硕士生，主持多项香港重大科研项目，拥有各国专利8项，在国际会议和学术刊物上发表论文200多篇，论文被引用3000多次。

没有成就是一蹴而就的，具备了国际视野，捕捉前沿和热点会更加轻松，但这才只是战役的第一枪，旷日持久的研究容易让人感到疲惫，最重要的就是“兴趣”“坚持”“坚持有兴趣”。

曾兵的研究方向属于信号处理范畴，与其他领域不同，信号处理自打问世以来，似乎就从未经历过“寂寥”，巨大的应用价值，让它一直站在前沿探索的风口浪尖上。在进入这一研究领域之后，首先需要面临方向选择，曾兵介绍说：“一个是做语言、语音，一个就做图像，基本上是这两个。我做过一段时间的语音信号，但是觉得好像没有图像过瘾，既可以拿出来看，又可以播放，所以虽然语音研究也非常重要，但当时还是因为更‘好玩’，选择了图像视频方面的处理研究。开始也做过广义的图像处理，后来比较专注在图像和视频信号的编码这个方面。由于图像视频的数据量特别大，所以几十年来，可以说是一个从未冷却的研究焦点。到今天其实我自己还是挺喜欢做这方面研究的，我经常跟学生聊，我说你们要想跟我做研究，除了不错的专业成绩，更重要的就是看你能够奋斗到什么程度、能够投入多少时间和精力。我自己现在回过头去总结，感到人不管待在哪里，或是做什么领域，真的是坚持20年没有放弃，才会有收获。从开始读书，到留在学校搞科研，我们从来没有一天敢懈怠。”

在香港的20年，曾兵的研究主要围绕着图像视频的压缩编码展开，因为“你想传输或者保存，必须要做压缩，尤其是视频信号，从第一代的国际标准到几年前最新的一版，经历了多次更迭。”在编码的多次更迭间，几大亮点成果让国际同行牢牢记住了曾兵的名字。

指导学生

20世纪90年代，先是一篇关于视频编码中快速运动估计的论文引起了广泛关注，当时被SCI引用超过650次。“视频编码翻译里面有一个问题，每一帧和每一帧之间物体都有一个运动，比如说人在动、车在动。那么拍视频的时候，当前帧和后面的那些帧，只要抓住人或车的运动信息，下一帧我就可以只编这一部分了，不动的地方能够节约很多的资源。”为了估计视频中事物的运动信息，曾兵在国际同行中第一次提出了中心偏向的搜索模型，由此开发出一种模块式的快速运动估计算法。这一算法的问世，成为视频编码处理领域的标志性节点，整个估计运动信息领域，都受到了新概念、新思路的影响，此后国际上基本所有相关工作都会与这个算法做比较。由于运算又快、信息又很稳健，即使多年后的今天，国内外的同行也都对这项算法评价极高，这一奠基式工作也毫无争议地确立了曾兵在领域内的国际地位。

2008年，曾兵带领课题组开发出了一种全新的、智能化的补缺技术，大大提高了编码效率。在同样的编码率下，编码质量比MPEG-4使用的补缺技术可以提高3～8dB，自此填补了MPEG-4标准中的一项国际空白，由此申请的专利成功地转让给了一家美国公司。

此后不久，他再接再厉提出了精细可分级的视频编码及传输中的多个算法、开发出了多码流间的无缝切换技术，并在国际上首次提出了带方向性的二维变换框架。其中，关于方向性二维变换的论文，在国际著名学者、被称为“离散余弦变换之父”的美国教授K.R.Rao推荐下，获得了2011年度最佳期刊论文奖，这项含金量极高的荣誉再次引起了国际同行的集体瞩目。

“这个工作其实也是针对图像视频编码的，我们要做一个变换，编码压缩不在像素域上做，而是要进到平域里面去做一个变换。那么，围绕做这个问题，70年代中就提出了一个离散余弦变换，这个变换是非常有名的，此后三四十年人们都在使用。但是，2008年我们提出了一种新的变换，在大量的实验基础上，对离散余弦变换进行改进。它的改进原因其实很简单，比如说图像里面有一个水平方向的物体，如果我把这个物体移一下位，移成一个对角方向的话，以前那个变换基本上不考虑方向性，我们在这个变换里就把各个方向性考虑进去了，不仅是垂直水平，还包括对角等各个方向性。所以，它一下子变换的效果真的就提升了。这篇文章被离散余弦变换的创始人看到了，他说这个东西很好，就来帮我们提名，经过了大概三轮的评比，很顺利地获得了最佳论文奖。”

回归：风劲帆满踏浪行

旁人眼中的功成名就，不能成为曾兵坚守的理由，在香港任教20年后，他想到了回归——回到大陆、回到成都、回到母校那个孕育了激情与梦想的地方。主场优势将带来更多的可能，这是他做出选择的唯一理由。

实现梦想的第一步，是组建团队。在曾兵眼中，近亲繁殖的团队，是很难取得突破的：“学生再怎么琢磨，留在一个团队中也很难超过老师本人，他在固定的框架下会畏首畏尾，包括做研究的方式、想问题的方式都很可能被禁锢，所以，我的团队基本都是来自不同院校的拔尖人才。”

在打造创新型骨干团队的同时，围绕新一代图像与视频信号采集、压缩处理、传输和显示技术的研究开发，曾兵对电子科技大学原有的图像处理与信息安全、智能视觉信息处理与通信等研究团队进行了充分了解，达成了相通性和互补性的统一，然后细致地描绘出了自己的研究蓝图。

首先就是采用压缩感知的图像与视频信号采集和重建技术。压缩感知可以说是近10年来信号处理领域炙手可热的课题了，曾兵介绍道：“原理是任何图像在一定程度上都具有稀疏特性，于是我们可以选用远低于Nyquist采样率进行信号采集，同时保证足够好的重建质量。在这一部分工作中，我们将通过设计最适应的采样矩阵、找寻最佳的变换等方法，开发一种多轮次的压缩感知信号采集技术及其相关的重建算法，也希望能通过相应研究，重建高清的三维图像。”

学术讲座

同时，迟缓迭代的技术也引起了曾兵的关注。举个例子，仔细观察常用的图像与视频编码的原理框图时，能见到许多必不可少的基本构造块，比如二维变换、量化器、运动估计与补偿、可变长度熵编码等，而这些基本构造块中所使用的技术在过去几十年里几乎都没有任何变化，如果这些构造块中所使用的技术继续用下去，将很难进一步提高其编码的性价比。因此，他将攻克智能化图像与视频信号压缩技术放入了科研日程，以期从智能化的角度，重新关注图像与视频编码中的一些基本构造块，包括智能化的变换、智能化的量化器、智能化的运动补偿等，从根本上突破使已使用了几十年的传统图像与视频编码术，最大程度地提高编码的性价比。

再比如，尽管今天的互联网变革看似日新月异，但图像或视频数据，即使是高度压缩后还是占据大量空间，在互联网上更有效地“流播”图像和视频数据一直是网络运营商重点关心的问题。由此，曾兵准备带领团队全力应对这一高难度挑战，应用近几年初步发展起来的网络编码技术，对下一代互联网中图像或视频传输的相关问题提供更好的解决方案。

与此同时，曾兵还注意到，现代网络传输中从总服务器到用户终点几乎不会是点对点的连接，而是需要通过路由、中继、本地服务器等许多中间节点的，针对这一拓扑结构，过去10来年人们开发了网络编码技术，试图取代现有的“接收和发送”方式。如果以此为目的，一种简单的技术是在一个中间节点对接收到的两组二进制信息流作“异或”运算，在今天的网络传输中，几乎每一个中间节点都具备了较强的计算和储存功能。于是可以对接收到的图像和视频数位流进行部分解码，然后研发出一种“高级”的新型网络编码技术。据估计，这种新型网络编码技术和基于“异或”运算的技术比较，可以节约高达50%的信息量传输，人们可以真正进入网络传输的“高速公路”。

在已有的研究基础上，他准备再进行深入整合，比如在图像与视频信号源编码方面，人们已开发出了几类适合于各种网络上传输的图像与视频信号源编码表示技术，包括可伸缩编码、多描述编码和多码率编码。曾兵的前期工作已经奠定了坚实的基础，包括10余篇论文和几个已申请授权的专利。未来，他的关注点基本圈定在尽可能全面地结合传输网络的结构、功能和特性来选择最佳的信号源编码技术，同时研究在网络有损场景下的有效补救方法。

启程：勇立潮头击天鼓

当图像和视频处理技术开始狂欢，当电视、电影、互联网等媒介利用目不暇接的视觉影像以咄咄逼人的气势闯入我们的生活，一个千真万确的“大图像”时代来临了。如同哈佛大学教授丹尼尔·贝尔所言：“声音和景象，尤其是后者，组织了美学，统率了观众。”但是，民众感官上的繁荣并非科研工作者探索世界的主要目的，在曾兵眼中，实用价值需要来得更猛烈些。

专业研究在医学上的应用，首先牵引了曾兵的目光，“医学上有一个胃窥镜系统，检查肠胃直接从食管进去或者从肛门插一个导线的管进去，进入人的胃部肠部照相，再把这个图像、视频拿出来。检查过程其实人非常痛苦，所以这也是我们目前的一项重点工作”。

目前检查有一种新型手段是用无线传输胶囊，最近几年进入了临床。病人吞下这个药片，在体内留6个小时。药片可以照相，可以无线传输图像，每秒能照两到三帧，整个检查过程要四到六万张照片。但这个药片的问题在于最高的分辨率很低，而且在胃和肠道里胶囊的运动无法人工控制，缺失大量姿态角度的信息。虽然这些图片在时间上是连续采集，但两个连续的图片之间，内容上大多没有相关性。曾兵介绍说：“我们主要瞄准两个方向，胃镜我们瞄准了其胃部的图像，无线胶囊我们瞄准的是肠道的。这个图像拿出来以后进行分类，剔除很多没有用的图，再做高分辨率的成像。”

此外，当日新月异的科技变革吹皱了图像与视频处理领域的春水，曾兵的研究，当然不止于从二维图像到三维图像的应用研究，“可视”大数据逐渐吸引了他的目光。

团队合影

“现在我们的图像还只是一个平面的二维图片，加上时间以后，成为三维的。如果说我们把这个场景中物体离相机的距离信息加进去的话，那就是四维的东西。然后，还可以加，光照射这个物体基本上有两个角度，一个经度角，一个纬度角，就成了六维的东西。红橙黄绿青蓝紫连续的光谱多保留一些点，就是七维函数，所以，这个七维函数你可以想象，它这个数据量是极其庞大的大数据。如果把这个大的图像数据压缩成以前的十分之一、百分之一，就真的可以从定性上判断出一种趋势，比如可以呈现交通在哪里堵塞，或者供政府做一些决策性的分析。”

与曾兵同行的，不光是自己的科研团队，还包括了世界知名的企业。在香港时，曾兵跟微软合作进行了很多专利研究，华为公司也曾邀请他参与一些顾问项目，回到成都之后，华为迅速将一个专利开发项目交给了曾兵的科研团队。毫不夸张地说，这是目前在多媒体领域国内高校承担的最大的项目，没有之一。

曾兵介绍说：“工作内容主要还是围绕着下一代的视频编码国际标准做一些前瞻性的研究，积累一些核心技术。目前国际视频编码标准包括两代，一个叫H.264，另一个叫H.265，华为都已经介入了，但是由于核心的专利技术不够多，所以还是被高通、三星控制着。所以，华为希望能够主导下一代新的标准，我们预计今后两年开展工作，一定要帮我们的民族品牌抢占主导地位。”

就像俄罗斯诗人马雅可夫斯基所说的那样——“我们感激灯塔，因为它为夜里难以出航的人，用火光照亮前路。”曾兵的灯塔关乎梦想、关乎机遇，也关乎反哺祖国的赤子之心，而他的坚守，也将为新一轮科技革新指明行路。