陈光：什么是好论文的品味

2023-11-28王卓尔

传媒评论 2023年11期

文_王卓尔

陈光

1978 年6 月出生，北京邮电大学人工智能学院副教授，主要研究方向是模式识别与机器学习，目前主要研究自然语言处理，在国际高水平期刊和学术会议发表论文数十篇，主持和参与多项国家自然科学基金、重点研发计划等国家级项目。其创办的微博账号“爱可可-爱生活”，聚焦人工智能主题，以专业的学术品味、广阔的领域视野、敏锐的业界观察、丰富优质的资源推荐，为广大人工智能、机器学习和数据科学爱好者所熟悉和喜爱。

陈光的一天，以分享论文始，以分享论文终。从2014年开始，每天早上5点左右，他会先在自己的微博“@爱可可-爱生活”上发布国内外行业内值得推荐的论文、观点或动态。很多关注他的粉丝一大早打开微博，多半会被他刷屏。晚上10 点，他还要把近期分享过的50 条重点信息整理在一篇文章中。在微信公众号上，他每天详细摘录5篇论文的主要内容，提炼要点，总结可借鉴的方法。

尽管在社交平台很活跃，有着近82万粉丝，但陈光并非全职的信息共享博主。他的主职是在北京邮电大学人工智能学院担任副教授，主研机器学习与文本计算方向。2000年，在陈光刚读北邮模式识别与智能系统专业研究生的时候，国内学术论文分享的途径较多地集中在学术期刊订阅、网络数据库订阅中，即使去国外参加学术会议，带回来厚厚的论文集或光盘，分享和传播也很受限制。现在大家熟悉的预印本网站如arXiv 在那时起步不久，受众有限。陈光觉得这是个机会，自己又恰好有资源、有兴趣、也有精力。2001年，他开始着手建立旨在推广和分享模式识别相关论文和资源的实验室网站PRIS，比后来在科研圈中比较有名的“小木虫论坛”等网站都要早。截至2006年陈光博士毕业时，网站论文资源的总下载次数超过了230万。很多年后，他受邀参加一个行业顶会分享会的圆桌会议，偶然从闲聊中得知，邀请他的微软亚洲研究院的专家，便是PRIS 最早的一批受众。那个小而全的网站，影响了很多人。

随着毕业后留校当老师，陈光遇到了一批又一批浮沉在论文苦海中的学生，他们总是对老师发出“什么是好论文”的“灵魂”之问。到现在，还是每天大量阅读科研论文的陈光也一直在琢磨这个问题。这更多的有种哲学上“说不可说”的意味。顶尖院校学者写的论文就一定是好论文吗？能提出可操作性、可复现性强的方法的论文就一定是好论文吗？不绝对。尤其在人工智能领域日新月异、科研论文井喷的今天，连ChatGPT等大语言模型都能快速生成一篇像模像样的论文，关于论文“品味”的思考就显得更有意义。

思考是从“面”到“点”的灵光一现

说到当博主这件事，陈光觉得跟其他老师相比，自己有点“不务正业”，但说到底，依然是在教师这个职业的基础上做了延伸。他始终坚信一句话：学习，是老师最基本的职责。经常有学生希望导师为自己指定某一个研究方向，最好直接指定一个题目。陈光认为，作为高校教师，首先应该帮学生建立对所在领域整体的把握，再引导其聚焦于某一点进行研究。运用社交网络等新媒体工具，也只不过换了一种更具“网感”的形态来帮大家拓宽眼界。

在陈光看来，学术研究和技术应用是两种工作思路。做应用是从实际需求出发，寻找合适的方法去解决，是个从问题回溯、发散的过程。但做研究，首先是立足于“面”，既要把握行业基础和趋势，更要靠内驱力发现自己想研究、又值得研究的方向，最终聚焦于一个“点”。这个过程犹如独自行进在山峦起伏的旷野，只有自己实际接触并了解得足够多，才能掌握全局地形，对往哪里走有更深刻的洞察和思考。陈光举例，在使用机器学习解决问题的时候，除了所用到的具体模型和方法，还要广泛了解和把握其他机器学习方法的特点和适用场景，多看数据，结合任务分析和理解数据，进而标注数据。如果忽视这些作为“上下文”存在的工作，仅把目光落在改进当前方法这一点上，很难找到“运筹帷幄”的感觉。

这是必须下的“笨功夫”，其中的思考过程也是人类区别于机器的重要标志。如今，AIGC 技术的发展使很多人尝到了“一键生成”的便利，甚至在论文写作领域，ChatGPT 也能“以假乱真”。2023 年8 月，物理学期刊PhysicaScripta上发表了一篇关于揭示复杂数学方程新解的论文。但有教授在翻阅论文时偶然发现了Regenerateresponse的字样，这其实是ChatGPT里的按钮标签，意为“重新生成回答”。在一片对评审环节的质疑声中，出版方最终撤回了论文。

陈光觉得，论文不是为了发表而写，而是应该写下值得借鉴的研究新角度或新方向，体现作者的深度思考，为他人进一步的工作提供“踏脚石”。“如果本身不热爱思考，最终会沦为‘机器生产者’，”他说，“但热爱思考、能在他人思考基础上做出创造性延伸和拓展的人，机器是很难替代的。”

模型的局限在于无法生成创造力

在知乎上有这样一个提问：“大模型是参数量越大越好吗？边界在哪里？”陈光以“爱可可”的身份写了800字左右的回答。但后来，这条回答被折叠了，理由是：疑似AI创作。

陈光不喜欢长篇大论式的回答，尽量以简洁的答案给予提问者足够的信息。就比如在推荐论文时，他总是用条目式要点概括文章的重点信息，这对读者而言非常高效，但恰恰也是生成式AI“偏爱”的方式。由于目前生成类算法的基础和本质还属于概率模型，偏向于把握主流普适的文字长度、上下文关联、书写习惯等，想要逃过目前还有很大局限的AI 判定手段，意味着人类创作者还需进一步思考、提升自己的独特性。

随着AIGC技术的不断发展，陈光认为，机器生成和人类创作的边界会越来越模糊，人们判断机器生成内容的难度也会越来越大。如果一开始就没有建立对于好论文的正确判断，那么无论面前是机器还是人类写就的论文，对人们来说都没有太大区别。从本质功能角度来看，生成类模型的长处不是“创造”和“思考”，而在于“记忆”和“混合”，换句话说，它是对已有知识的联想和重组，某种程度上，是从语料库里“引用”来的。所以，从机制上，生成类模型很难提出一些原创性的观点或角度。

既然不能指望AI 在论文写作领域发挥重要的辅助作用，那能否训练一些模型“记住”个人对于好论文的品味来实现个性化推荐呢？尽管从研究生时期开始，陈光就在研究这个问题，到目前为止，他的答案依然是：很难。

首先，从内容本身来说，哪些指标决定了一篇论文足够好？主题的选取、问题提出的角度、内容的组织、作者的身份和所在机构等因素都能在推荐系统中占有权重。比如极端情况下，出自美国加州大学伯克利分校的、关于机器人领域的论文就是权威之作，可以入围好论文之列，但在一般条件下，对照以上指标，有些论文就很难“出圈”了。这颇如“坎贝尔定律”。陈光谈到，实际上，即使“师出名门”，很多论文其实也没那么靠谱，有大量论文在“占坑”“刷指标”，并没有给出特别有价值、值得借鉴的思考，单靠作者、机构信息等单一维度，很难筛选出真正优秀的作品。

其次，推荐系统的机制还做不到真正的千人千面。在主流的推荐算法——协同过滤中，基于从物（内容）到人的推荐方式无法真正匹配个性化的品味——用户通过相似内容找到的具有类似品味的其他用户，只能说明两人对某些具体方面内容的品味相似，很难推及其他内容，也很容易在推荐方向上固化形成“信息茧房”。

内容创作的方向：如何向机器提个好问题

陈光认为，对于论文的判断最终还是要回到读者视角，从能否获得启发性思考的角度来评价论文的质量。如果以更广阔的范围来看，好的内容创作都应该如此，包括媒体生产的内容。但这意味着我们应该放弃语言模型在创作时带来的便利吗？当然不是。

各类复杂的系统，都可能具备共同的特征——涌现，它是指当许多小的个体相互作用后产生了大的整体，而这个整体展现了构成它的个体所不具备的新特性的现象。在计算机科学领域，很多人认为大规模语言模型的参数在突破某个规模时，性能得到显著提升，就能具备“涌现”的特征。这也是弱人工智能向强人工智能，也就是通用人工智能（Artificial General Intelligence）进化的关键。

在以往通用任务的解决方案中，不同任务需要训练不同的模型，在对数据做知识图谱、制作文本分类器和实体识别等任务中需要进行大量的人工标注。而随着计算设备的进步，人们将参数规模呈指数级提升至10 亿级别后，以GPT 系列（全称为Generative Pre-training Transformer，意为生成式预训练变换模型）为代表的预训练模型，无需通过标注，只需针对下游任务和行业特性微调便能完成特定任务，比如媒体行业的“传播大模型”，也是这样生成的。这在陈光看来，是大规模语言模型具有划时代意义的地方。所以，ChatGPT 能掀起热度的原因就在于，人们通过尝试挖掘了其诸多潜力，比如收集材料、写采访大纲、制作PPT等。另一方面，这些任务的完成也促使大模型收集了更多语料，能以更快速度更新和演进。

在与模型互动过程中，一个关键步骤是如何引导其作出用户想要的回答。更多时候，人们把向模型提问这个环节称作“提示”，一个引子，其作用在于限制模型查找“记忆”的范围以及后续合成时对内容的侧重，更准确地匹配意图，哪怕提示并不构成一个完整的句子。陈光举了个例子，同样是查找一段代码，如果用户在提示中说“你是一位资深程序员”，那么模型就会在联想、记忆、组织内容时提高相关词的权重，更倾向于筛选出在教科书上出现或权威项目中的代码，因为这些资料有更高概率与“资深程序员”相关的“上下文”共同出现，最后得到的结果也更能接近用户需求。类似的，只要设计好提示来引导模型，像新闻记者这样的内容创作者是可以从中获得足够的素材、有用的线索或有趣的角度来促进思考、发挥创意的。

提示工程的最大意义在于贯通了人与机器思维的方式，让语言模型能更好地理解人类的诉求。陈光开玩笑说，或许以后不用教学生怎么写论文，教他们怎么做好提示工程就可以了。

陈光称自己为技术“呆子”，在他身上，我们看不到太多科研上所谓的“野心”。尽管他痴迷于前沿技术的突破，但是至于今后大规模语言模型能进化到何种高度，他也没有明确的答案，有的只是对目前技术进展的冷静观察和对未来的无限期待。更多时候，他在教书育人、拓宽学术视野的过程中，起着“踏脚石”的作用，以量变推动质变。至于为什么要对“好论文的品味”孜孜以求，在科技的创造力得以涌现的时候，自然也就有了答案。