人工智能尚未到来多模态融合成为趋势

2019-10-24顾鸿儒

中国电子报 2019年50期

顾鸿儒

近年来，腾讯在AI领域动作一直不小。2016年，腾讯成立了AI Lab，2018年初，腾讯再次成立了名为Robot-ics x的机器人实验室。自此，腾讯建立AI产业两大基础支撑平台，瞄准技术突破点，主攻AI领域最新难题。《中國电子报》记者采访到了腾讯AI Lab&Robotics x主任张正友。揭晓腾讯AI的新观点。多模态融合是核心竞争力

腾讯智能显微镜融入了人工智能的语音、视觉、语言处理技术以及AR技术。

医疗是腾讯AI布局最为鲜明的领域之一。2018年，腾讯AI Lab的“智能显微镜”项目已在研发测试阶段。

据了解，该产品融入了人工智能的语音、视觉、语言处理技术以及AR技术，能够自动识别、检测、定量计算和生成报告，并将检测结果实时报备，帮助医生在目镜中查看，及时提醒又不打断医生阅片流程，提高医生的诊断效率和准确度。而所有的功能，只需要医生输入语音指令，便可轻松地完成。

“用途、聚焦、视觉是腾讯在AI领域的三大主要方向。”张正友告诉记者，腾讯的AI核心力量主要在深圳，一小部分分布在其余地区。“我们做的工作，一方面是服务，这是公司的业务。另一方面，我们会准备一些前瞻性的工作。例如，如何将视觉、语音等技术结合起来。”张正友说。

张友正将腾讯AI的竞争力总结为多模态融合，针对不同的行业，进行深入研究。“游戏、农业、医疗等领域，我们都有涉及。例如腾讯的智能显微镜，虽然外表看起来与普通显微镜差别不大，但是它可以通过摄像头分析切片的数据，还可代替人工，轻松查数百万细胞，搜寻病变部分，警示医生。”张正友说。

“应用和研究，腾讯AI两手抓。”张友正表示，基础研究和应用研究，在腾讯AI的发展道路上缺一不可，而实现一切的基础，正来源于数据。

“腾讯非常重视用户的隐私，每个部门之间的数据是隔绝的。例如，AI Lab提取不到微信用户数据。但是值得庆幸的一点，中国市场具有很大的数据流量。而腾讯，在行业内也有着很深的积累。”张正友说。

深度学习不是AI

现在的人工智能，只是机器学习，即从大量的标注数据去学习映射，尚未达到真正的人工智能。

众所周知，目前人工智能领域内使用最为频繁的便是深度学习技术。作为国内AI领域第一梯队的腾讯亦不例外。然而，张友正表示，在“深度学习”打遍天下的今天，其局限性令人担忧。

“我认为接下来应该要回归初心，让光度视觉、几何视觉和语义视觉紧密结合起来，同时注入常识和领域知识，和语言进行多模态融合，通过学习不断地进行演变。”张正友说。

据了解，腾讯AI Lab已经在该方面着手。2018年，腾讯立于此观点，在QQ空间App上加入AI功能，帮助视障用户更好的看清图片。

“腾讯AI在产品上，将视觉和语义结合起来，通过物体定位、无监督学习，为用户清楚地将图片用文字描述出来。”张正友介绍道。

腾讯AI Lab目前已经可以将计算机视觉、语音识别和自然语言处理技术进行整合，开发虚拟人物产品，探索多模态人机交互，赋能应用场景，助力智能社交。尤其在最为火热的游戏领域，腾讯开发了二次元游戏解说员，可以实时的将游戏场景描述出来。

“但是，这些功能，是否能称为真正的人工智能呢？”张友正表示，现在的人工智能，只是机器学习，即从大量的标注数据去学习映射，尚未达到真正的人工智能。

“什么是真正的智能？目前还尚未有定论。瑞士认知科学家Jean Piaget曾将人工智能做如下解释：智能，就是在你不知道下一步要做什么时，所用到的东西或工具。我认为这个解释非常有道理。”张友正表示，实现人工智能的道路上，可能存在很多种方法，但最重要的一种方法，就是载体。“例如机器人。”张正友说。

在机器人领域，张友正提出了“字母理论”——ABCDEFG。字母“A”是指人工智能，字母“B”，是指机器人本体，字母“c”是指自动控制，字母“D”是指发育学习，字母“E，是指情感理解，字母“F”是指灵活操控，字母“G”是指守护天使。

“ABCDEFG，将是未来机器人技术的突破点，我将其命名为A2G理论。”张正友说。

据了解，在机器人领域，目前腾讯已有三款机器产品：绝艺围棋机器人、桌上冰球机器人以及机器狗。

随着技术发展，在中国的人工智能市场上，崛起了很多包括腾讯AI在内的强劲力量，张友正表示，越来越多的华人面孔出现在全球顶级智能圆桌上。

“CVPR2019刚刚过去，这次盛会可以被称为华人盛典，因为在活动的组织者里，有很多的华人面孔，包括大会主席朱松纯，程序委员会主席华刚、屠卓文。在来自全球的五千多篇投稿中，40%的是来自中国。最佳论文奖和最佳学生论文奖的第一作者也都是中国人。所以，在计算机视觉方面，中国能力还是很强的，这一点值得骄傲。”张正友说。