我国人工智能公共数据平台建设亟待破题

2019-09-10安欣赏

大社会 2019年11期

安欣赏

第四次工业革命正在来临，而人工智能已经从科幻逐步走入现实。随着核心算法的突破、计算能力的迅速提高、海量互联网数据的支撑，人工智能在21世纪的第二个十年里迎来质的飞跃，成为全球瞩目的科技焦点。对于中国而言，人工智能的发展是一个历史性的战略机遇，对缓解未来人口老龄化压力、应对可持续发展挑战、促进经济结构转型升级至关重要。

人工智能发展历程与现状

人工智能已经成为国际竞争的新焦点，世界上主要发达国家均把发展人工智能作为提升国家竞争力、维护国家安全的重大战略，加紧出台规划和政策，力图在新一轮国际科技竞争中掌握主导权。我国在2017年7月发布《新一代人工智能发展规划》，明确我国新一代人工智能发展的战略目标：2020年达到国际先进，2025年实现部分领先，2030年完成总体领先。

回顾全球人工智能的发展历史，历经三个阶段，跨度62年（1956年至今）：

1956-1976，基于符号逻辑的推理证明阶段;

1977-2006，基于人工规则的专家系统阶段;

2007-至今，大数据驱动的深度神经网络阶段。

从2007年开始，人工智能进入大数据驱动的深度神经网络阶段，这阶段人工智能发展的三大要素：数据 +算法+ 算力。

中国工程院院士、新一代人工智能技术创新战略联盟理事长高文院士总结了我国人工智能发展的几大优势：一是强有力的战略引领和政策支持，二是海量的数据资源，三是丰富的应用场景，四是具有潜力的青年人才快速成长聚集。

我国发展人工智能既有很好的基础和优势，也面临巨大挑战，需要探索一条适合国情的发展道路。可以结合当前人工智能应用驱动的显著特征，依托我国在大数据、应用场景、政策环境等方面的巨大优势，推动我国人工智能的深度应用。

人工智能数据发展现状与存在问题

在我国人工智能的发展应用过程中，三大要素中的数据要素居于首位，这归结于我国互联网基础设施建设、移动互联网快速发展、网络应用爆发增长、物联网技术成熟。

与此同时，在当前，数据还存在以下问题：

第一，数据成本支出高，花费周期长。数据从采取、标注到最终能够训练使用，需要经过较长周期，费时费力。大的人工智能公司，一年仅在数据标注上的支出就有数千万。

第二，数据获取难，共享难。除了人脸数据之外，与视觉相关的其他数据非常分散，不易批量获取。而各类专业数据都掌握在互联网头部公司，或者政府手中，受商业利益和用户隐私等影响，这些数据一般企业或者科研团队都很难使用到。

第三，标准化和自动化有待提升。数据集质量和数据标注质量对训练的准确度影响很大。数据集里普遍存在着噪音、干扰，在数据训练前要进行数据清洗，往往需要专业人员去除影响训练的杂质，另一方面，数据标注的质量也对训练有很大的影响，需要训练熟练的标注工人对大量数据进行标注，而市面上的标注公司大多质量参差不齐，标注标准不一样，对训练的准确度产生很大的干扰。自动化的平台或者工具可以有效提升数据质量，提高数据标注效率。

第四，隐私及保密性。数据在使用、传递过程中，往往存在泄密，隐私暴露的可能。需要专业的数据公司通过严格的制度控制，减少数据泄密和隐私暴露的风险。

国内外公共数据平台的基本情况

当前，在国内外比较知名的公共数据平台中，有以下几种类型和典型代表：

一、政府及组织公共数据平台

https：//www.data.gov是美国的一个综合性公开数据网站，发展至今提供超过25万个数据集，涵盖气候、教育、能源、金融等多个领域的数据，类似的还有加拿大、印度等国家的政府公共数据网站，世界银行的开放数据等。

二、大型公司公共数据平台

亚马逊公共数据平台目前已包含114个大型数据集，这些数据集包括完整的安然电子邮件数据集、Google Booksn-gram、NASA NEX数据集、百万歌曲数据集等。Google BigQuery公开数据集是存储在BigQuery中且可供公众使用的任何数据集，其本质是一种数据托管服务，第三方通过google云与公众分享数据集。YouTube数据集https：//research.google.com/youtube8m/，google研究小组发布的基于YouTube视频的数据集，由大量视频以及标签组成，最近还增添了分割标注。

三、数据竞赛型公共数据平台

Kaggle数据竞赛网站https：//www.kaggle.com/datasets，是一个数据建模和数据分析竞赛平台，企业和研究者可在其上发布数据，AI研究人员、统计学者和数据挖掘专家可在其上进行竞赛以产生最好的模型。目前该网站已有较多数据集和开发者论坛提供的很多数据分析方法。

阿里天池https：//tianchi.aliyun.com/home/，性质和kaggle相近，提供了很多国内企业应用场景相关的数据集，具有较大实用价值，但是由于很多是第三方企业组织提供的数据集和算法竞赛目标，某些数据集质量无法得到保证。

以政府数据为基础

行业应合力建设公共数据平台

政府部門在履行行政职能、管理社会公共事务的过程中采集和储存了大量数据，在保障国家秘密、商业秘密和个人隐私的前提下，如果将政府数据最大限度地开放出来，让社会进行充分融合和利用，合力构筑数据基础设施，营造全社会尊重数据、保护数据、善用数据的氛围，有利于释放数据能量，激发技术创新活力。

除了政府公共数据作为基础的数据来源之外，还有其他途径进行数据的补充。

一是产业数据协同。依靠各种协会联盟的行业影响力，与产业链下游创业公司/行业公司或产业链上游的数据/平台型公司建立合作，以此获取所需数据资源;

二是自筹数据。通过投入大量人力进行数据采集，或者投入大量资金，向普通用户提供特定领域免费应用的策略快速积累数据，如Madits、Clarifai等图像识别公司均推出了免费的照片应用程序，以便为图像识别核心业务积累更多图像数据;

三是开源开放平台数据交换。将数据平台的数据进行分享交换，提供第三方的数据集链接或交换分享服务，增加平台数据集规模;

四是通过大赛机制完善数据集或利用虚拟环境产生数据等。数据平台举办竞赛可要求协办方提供数据资源，促进数据共享。此外，利用计算机虚拟环境也可产生数据资源。如斯坦福大学在训练远程遥控深海作业机器人OceanOne时，使用了很多由模拟场景（虚拟环境）产生的大量训练数据。

在获取到以上数据后，将这些数据建立成单独的数据集还要作如下处理：

首先要进行数据的脱敏处理。比如文本记录数据中敏感地名、人名以及车牌号等隐私记录的处理，视频中人脸、车牌号以及一些敏感画面的处理等，根据法律法规及数据用途的不同需要做不同的脱敏处理，保证数据的公开使用没有用户隐私或其他法律纠纷。

其次是数据前处理，初步收集的数据在存储格式、压缩率以及完整性上都可能存在各种问题，在建立数据集前需要进行预处理。对于存储格式，比如图片或者视频，应该优先选择通用的数据格式，同时保证同一数据集中同类型数据格式一致。另外由于数据平台所需存储数据量巨大，因此，选择合适的数据压缩方式非常重要，在多媒体数据中选择合适的格式不仅能够保证相对较好的数据存储质量，同时也能充分压缩其数据存储大小。

最后是缺失和异常数据的处理，原始数据不可避免存在某些数据缺失不完整或者采集异常情况，对于这些非正常数据，如果同一批次相同类型数据量较多，缺失数据占比很小，则可以选择删除这些数据或缺失的数据属性。如果这些数据占比较大，该类型数据总体较少，可采取人工补全、均值插补、极大似然估计或者聚类回归等方法进行完善。

公共数据平台的建设可以充分利用政府数据作为基础，同时成立专业的第三方数据机构，做好产业协同服务和支撑，为愿意使用公共数据、愿意交换和共享数据的人工智能领域研究机构与公司提供发展能量，加速研发进程，降低数据使用成本，提升我国人工智能研究水平和应用水平。

公共数据平台可以在数据采集、自动化标注平台及工具等方面加大投入，在保证训练数据质量的同时，提升数据的获取速度，降低数据使用成本，保护数据隐私。

公共數据集建设对人工智能的重大意义

建立公共数据平台，对我国人工智能发展具有重大意义。

首先，通过数据平台建立自己的公共数据集，可以适应国际竞争需要，摆脱国外对AI公开数据集的垄断，建立中国自己的公开数据集，大幅度降低人工智能企业的入门门槛，带动人工智能企业的孵化和创新以及传统企业的智能化应用。

其次，开源数据集项目+开源算法项目+开源应用项目，形成人工智能开源社区，不断产生新的算法，不断优化算法，不断产生应用场景，形成算法的知识图谱，从而推动人工智能成果转化，促进人工智能产业的发展。

再次，在公共数据平台基础上，企业可以提供特定的专用数据集+机器学习平台+应用算法商店+支持培训等一揽子服务，降低人工智能产业应用的技术门槛，促进人工智能产业与传统产业的融合发展。

最后，在公共数据平台的基础上，能够及时制定国家标准、行业标准和团体标准，规范产业发展，促进行业合作，提高行业整体水平。

（作者单位：深圳龙岗智能视听研究院）