美国积极研发人工智能影像判读算法

2019-07-30池卫红韩晓乐中国人民解放军95894部队北京市昌平区100085

无人机 2019年6期

池卫红韩晓乐 / 中国人民解放军95894部队，北京市昌平区 100085

为应对海量侦察数据，美国积极推进人工智能技术在侦察影像识别判读领域的开发。本文以识别卫星影像为例介绍了美国正在开发的人工智能辅助判读技术以及为推进该技术所需解决的问题。

美军侦察平台多，收集能力强，卫星、无人机和其他侦察监视平台收集的数据远超出人类可以分析的能力。以美军无人机为例，美军现有11000多架，每年收集数十万小时的视频数据。情报部门每天用一个传感器在一个战区内捕捉到的数据超过美国国家橄榄球三个赛季的高清图像数据。例如，一个广域运动图像传感器，它可以观察整座城市，但是20多位分析人员夜以继日地工作也只能分析其中的6%～12%。为应对海量数据，减轻影像判读人员的工作量，美国积极推进人工智能技术在影像识别判读领域的开发。

算法开发

美国情报预研局从2017年7月到2018年2月启动了“世界功能地图挑战赛”，旨在通过利用人工智能技术，对卫星影像自动化分析方面实现突破。美国情报预研局成立于2006年,参照国防预研局设立,受美国家情报局长领导。它共有500个合作机构,为美国政府17个情报机构服务。

“世界功能地图挑战赛”邀请了工业界和学术界研发人员开发能够扫描和识别卫星图像中不同类别物体的深度学习算法。情报预研局提供了100万张做好标注的高分辨率卫星图像，供参研人员和机构使用自动算法和大量图像训练算法，使其将对象分为63类，如机场、学校、油井、造船厂或港口。

研究人员通过将称为卷积神经网络（convolutional neural networks）的大型神经网络和具有大量处理能力的计算机结合起来，为深层学习算法提供动力。在提供给大量训练数据后，可以学习识别和分类卫星图像上不同的物体。通过将一些这样的网络组合成整体，该算法可以判断每个卷积神经网络的结果，最终产生一个比单个卷积神经网络更强更优的结果。上述是美洛克希德·马丁小组的设计方案，该小组使用机器学习软件和从在线开源软件库（如Tensor Flow）获取的框架开发了其卷积神经网络。该算法在识别速度上获得了前五名，算法总精度达到83%，并能够实现每秒对100个对象进行分类，如果使用完全有效的算法，该软件可将人类1h完成的图像识别任务，缩减至到几秒钟。该小组的算法擅长识别具有鲜明特征的物体，以高于95%的精度成功识别了核电站、隧道口、跑道和风力发电场等，但是识别特征相似的物体存在困难，如船厂、港口、医院、办公楼和警察局等。开发人员指出，从卫星图像来看，这些物体根本没有任何区别性特征。

若要这些新类型算法产生作用，所需添加的最重要成分是数据集，因为这些算法需要大量的数据进行训练，这是一种类似于人类童年时期学习如何识别事物的方式。需要“这些物体是什么”的大量例子，然后开始概括，逐渐做出自己的判断。但是，即使有大量正确标记的训练数据，今天的深度学习技术可能也不能达到更高层次的智力水平，识别细微差别。例如，洛克希德·马丁公司小组的算法将船厂和港口混淆的次数达56%。小组开发人员称，人类看到一个图像时，通常观察事物的细微处，如干船坞内是否有船只，是否存在某种类型的起重机，从而可以区分出港口或造船厂，而人工智能算法目前还做不到。开发小组正在寻找图像中这些深度学习算法目前无法计算的更高层次或更复杂的细节。目前，情报预研局人员正在更新和维护数据集，以确保算法可以获得最新的数据信息进行训练，最终使基于卷积神经网络的算法更受信任。例如，某一区域中细小的变化将使系统大脑混乱，系统会给出完全错误的答案，因此，情报预研局人员计划不断地研究这个地区，确保其正在开发和为政府重新评估的算法继续得到测试和使用，最终在应用中变得更加强壮。

美国大学也正在开展算法研究工作。波士顿大学的一个研究小组正在使用“世界功能地图”数据集和经过测试的算法创建热图（heat maps），这些热图可以显示出算法所使用的那部分图像。他们发现，有时不是物体本身，而是围绕在物体周围的线索在分类识别中提供了最多的帮助。例如，风车显示的阴影可以很好的帮助识别出风车这一物体。阴影为识别物体提供了更好的视图。波士顿大学热映射算法实际上指出了阴影的重要性，它是识别出风车的关键特征。这一算法利用了影像判读识别特征之一—阴影。

需要解决的问题

美军和地方技术工业部门指出，实现人工智能技术辅助解译判读面临数个挑战，需要解决好一些问题。

需要对算法进行再训练

利用某一地区数据训练的算法应用到另一个新地区,最初可能会出现一些低级错误。为解决这一问题，研究人员目前在用户界面中加入了一个名为“训练AI”的按钮。如果发现算法误将棕榈树识别为人或出现类似错误时，分析员可点击“训练AI”按钮对算法进行训练，将该帧视频从战区环境中分离出，单独进行数据标记，并迅速发送给算法开发人员，由开发人员对算法重新训练并进行优化。

需要大量的结构化数据

为构建算法，需要大量的训练数据和标记数据。对于计算机视觉，需要为成千上万的图像贴上标签，即常说的结构化数据，而不是原始数据或非结构化数据，这样系统才能识别出它们所看到的东西。若不经过标记，算法很难完成其工作。目前美军正在构建一个国防部数据标签体系。政府、学术界和工业界正在寻找更好的方法，促成机器能够理解新的数据，并利用大量的未标记数据。约翰·霍普金斯大学应用物理实验室致力于将迁移学习技术应用于图像分类、检测和分割。通过使用卷积神经网络，机器学习可以从先前面向一个问题的数据集应用到面向另一个问题的数据集。利用迁移学习和无监督机器学习可以提高算法。

图1 利用人工智能识别标注出的三个机场，三个机场位于美国佛罗里达州中部。

图2 北京首都机场局部卫星影像图

需要提供自适应的用户界面

为算法操作人员和分析人员提供的用户界面必须是可定制和自适应的。用户界面应该使操作人员能够根据正在执行的任务选择相应的算法，为某个区域定制的算法并不会完全适合另一个区域。用户界面还应提供可调节置信度的工具。部分操作人员可能希望算法识别置信度达到80%及以上，另一些操作人员可能会将置信度降至20%，这有可能识别人类通常无法发现的结果。