人工智能“邂逅”高考：那一天，机器人来了

2018-01-02

科学中国人 2017年22期

这是一个普通的高考考场：考生就坐，准备就绪，开始答题。

但这又不是一个普通的高考考场。这里不够安静。在一个大约300平方的大厅里，循环播放着一首钢琴曲，时不时还有女主持人和男嘉宾的对话。大厅一排排的椅子上坐着兴奋而略带焦躁的观众，人们窃窃私语，似乎都对他的解题过程充满兴趣。

面对音乐和干扰，考生表现出了良好的心理素质。他全神贯注地解题，速度与质量没有受到外界的丝毫干扰。他解开每一道题的速度为7到15秒。据熟悉他的人介绍，这是他放慢了6倍的结果。

他放慢的原因是：他不仅需要把题目做对，还需要给大家展示他是如何做到的。根据高考要求，他不能直接说话。他也没有多余的手来为观众进行演算。一切只能通过礼堂前部的大屏幕来展示：左边是一个由无数蓝色光点组成的大脑，每算一道题，蓝色大脑里就会跳出若干以红色、黄色、蓝色节点构建的知识链。每个节点旁边有一行白色的字，标注着这道题涉及了哪些知识。

屏幕的右边是正在演算的题目。蓝色光标在题目末端闪烁，过一段时间打出一行字：那是他给出的答案。答案闪现的飞快，一些观众干脆从椅子上站起来，想看清楚题目以跟上他思考的速度，但往往还没有把题目读完，就已经到了下一道题。

开始时间是6点40分：这比高考要晚了近5个小时。不过，在这场为他专门准备的考试里，才开始了不到8分钟，而他已经快把题目做完了。

最终，他答完了题。用时9分47秒。几乎在他答完题目的同时，在2000公里外的成都，另一个与他类似的考生，也已完成了题目。他们使用相似的屏幕输出，做一样的北京市高考数学卷，只不过那一位成都的考生用时要比他稍长些：22分钟。

经过数学特级老师、奥赛教练韩兆勇的评审，他的分数最终公布：134分。

为了衡量这个分数的价值，有3组高考状元陪他一起进行测试：状元一组得分，119分。状元二组得分，140分。状元三组得分，146分。最终结果是，他惜败于最精英的人类“做题家”。

在另外一边，成都的考生也得出了结果。他的成绩是105分。这一分数不如北京的考生一样显眼。但对他而言，无疑仍是个巨大的进步——仅4个月前，他的成绩只有93分。4个月的时间里，他就提升了12分。

这两位特殊的考生正是中国历史上第一次正式参加高考的人工智能。北京的“考生”是学霸君推出的智能教育机器人Aidam，而成都的“考生”则是由成都准星云学科技有限公司开发的人工智能系统AI-Maths。在恢复高考的第40年，TA们来了。

AI-Maths的“考场”

国家级项目“高考机器人”

在李世石和柯洁先后惨败于围棋AI AlphaGo之后，“人机大战”成为了许多媒体在报道机器人的过程中常常出现的词语。或许由于此，在机器人宣布参与高考之后，网民的评论也日趋两极化。一种声音认为，人工智能参与高考，很可能是在“蹭AlphaGo的热度”，或是认为人工智能进行高考，犹如学生用计算器计算数学题，有何意义？而更多的人，即便承认人工智能参与高考有价值，也认为以高考的难度，人工智能要获取好成绩，仍属不可能。

甚至在知乎“如何评价国产机器人将参加2017年高考？”问题下，有一个高票答案断言“当今人工智能的发展，机器是不可能在非西藏，新疆等省份考入一本的，在新疆西藏考文科还有个一搏，理科是会死路一条。”对数学的估计是“估计60～80比较靠谱”。也有人认为机器必须要联网才能获得答案，否则会“老师，if断网，404 not found”。

在两位人工智能参与高考的前一天（6月6日），科大讯飞轮值总裁吴晓如及讯飞研究院院长胡国平接受媒体采访，对这些问题作出了回应。

据吴晓如披露的内容和相关资料综合，机器人参加高考，并不是所谓的“人机大战”后才出现的噱头。在国家层面，“高考机器人”是国家“863”计划信息技术领域“基于大数据的类人智能关键技术与系统”项目的重要研究目标之一。该项目由科大讯飞联合30多家科研院校和企业共同参与，早在2015年便已立项。

作为国家级项目，研制“高考机器人”有多方面的意义：首先，聚集国内的一些比较顶级的研究机构和科学家，一起来攻关现在人工智能领域相关的一些重要的技术问题；其次，由于人工智能的发展，传统用以测试人工智能水平的“图灵测试”已经逐渐落后，而高考正是一个能充分体现和应用人工智能相关的多种能力的领域。最后，人工智能参与高考，将会根据不同领域分为不同的攻关组，这些攻关组所取得一些技术成果，能够运用到相关行业和领域，如翻译和车载控制等。

作为国家级项目，“高考机器人”仍在开发和完善之中，要2019年才会正式参加考试。但今年参与考试的“考生”之一准星云学AI-Maths，与该项目有着密切关系。资料显示，准星云学的核心团队于2015年参与了“基于大数据的类人智能关键技术与系统”，并主导子课题“初等数学问题求解关键技术及系统”。后者正是AI-Maths技术的重要来源。除此之外，AI-Maths还综合了清华大学大数据及自然语言识别等前沿技术，是“一款以自动解题技术为核心的人工智能系统”。

而另一个“考生”Aidam，则来源于学霸君。此前，学霸君接受采访时曾经描述，教育中清楚地分析知识点，做到知识框架全局可细分就需要用数据来驱动学习效果，而数据则来源于学生使用学霸君时的各种行为记录。

在讲解Aidam的背后逻辑的时候，学霸君的首席科学家陈锐锋使用了围棋作为比喻。类似于围棋棋盘可以被分为无数横轴和纵轴，人的思维模式和解题模式也可以被具象为棋子，棋子的纵轴与横轴分别代表起始的状态和下一步的状态，这样，每一次题目的可能解法，就相当于在一个庞大思维矩阵里下棋的过程。而学霸君此前积累的庞大的题库与数据记录，恰恰类似于无数张围棋棋谱，为人工智能自主学习提供了可能性。“我发现，原来在我们的题库里面我们记录了大量的关于状态之间可跳转、可推演、可演算、可关联的信息。”

不同的背景决定了二者不同的解题思路，甚至在一定程度上截然相反：准星云学的AI-Maths与“863”计划的高考机器人的思路一致，强调“不联网、不连接题库、无人工参与”，在只有少量训练样本的情况（只有约500套试卷、1万道题的训练量）以机器建立类似人类的复杂逻辑推理能力与联想能力，试图让机器在较少样本和较少资源耗费的情况下，拥有“举一反三”能力。而学霸君的思路则强调大题库（已经有超过7000万的巨大题库），通过海量的题库、用户行为数据，以及AI自我博弈，从海量题目中找到适合共通的知识元件和解题模式。从某种角度说，这两种模式的区别类似于AlphaGo早期版本的学习过程，计算机可以通过规则自己对弈，也可以学习棋谱。从此前的测试中看，Aidam的成绩要好于AI-Maths，但如果以纯粹人工智能的难度和多行业的延展性，AI-Maths要略高一筹。

不过，尽管距离人类并不遥远，但无论是AI-Maths还是Aidam，仍然有很长的路要走。

状元与Aidam的最终分数

尚有很长的路要走

在4个月前的那次首次亮相中，AIMaths仅得了93分。事后，准星云学CEO林辉在接受记者采访时，认为它失分的重要原因来源于“无法理解题意”，它们缺乏人类生活的常识，它们无法理解“投资”“理财”这些概念。

在现场AI-Maths的研究人员举了一个例子：它可能能够解决复杂的数学问题，因为1～9的数字对它理解起来非常很容易。但是人工智能要理解“苹果是什么”却很难，因为一个具象苹果，需要非常多的描述。人类可以从小从生活经验里习得，而AI则不能。这也导致了，在语言相对更复杂，概念更多的应用题领域，AI的难度要比人类解题大得多。

这一问题同样困扰着Aidam的开发者。陈锐锋简要介绍了AI的答题过程必须经过三步：第一步，从自然语言转为形式语言，需要将复杂的数学题分析其中的语法结构，抽出其中的主谓宾，形成能够让AI理解的语句；第二步，从形式语言进行自我映射、自我推理，并完成最终解题过程；第三步，将解题完成后的机器语言翻译回人类的语言。仅在解决“如何将几何语言转化为机器语言”这一难题上，开发者就花费了整整一年的时间。此次的题目也是由人手工输入，在一定程度上降低了AI解读的难度。

但从整个AI行业而看，AI对语言的理解，乃至对于主观题的判断，又比人们设想的更加迅速。据吴晓如在访谈中介绍，目前科大讯飞的智能阅卷产品，已经可以实现对主观题，甚至对语文、英文的作文题都可以实现自动评分，包括给出详细批语，甚至可以对学生们用的好的一些优秀的排比句，和名人名言给予针对性的鼓励和评点。另一方面，微软小冰在2017年5月19日出版的诗集《阳光失了玻璃窗》获得好评，被认为比起去年的高考作文有了很大的进步。

从以往的技术发展进度看，人工智能从第一次走进高考考场，到最终攻克应用题和语义理解难关，获取较为优异的高考的各科分数，到最后考入清华和北大，只是时间问题。或许真正的问题是，之后人们如何与人工智能相处，乃至借助AI的力量，让教育变得更有质量、更个性化，也更加公平。例如此次的两家公司：学霸君和准星云学，其技术都包括了自动批改、智能评测、学习诊断等功能，这也逐渐成为目前的“AI+教育”类产品的标配。

这不禁让人联想，2017年是中国恢复高考制度40周年。这40年，高考制度成功的打破了原有的社会壁垒，改写了无数中国人的命运。那么下一代，AI走入教室和考场，又会改变哪些人的命运呢？

（文章转自36氪搜狐公众平台）