高端交流平台及其情报计算能力建设*
2021-01-30李广建
李广建
(北京大学信息管理系,北京 100871)
构建国家科研论文和科技信息高端交流平台(以下简称“高端交流平台”)是《中共中央关于制定国民经济和社会发展第十四个五年规划和二〇三五年远景目标的建议》提出的加强我国科学战略力量的重要任务之一。科技信息和科技情报工作已经上升到国家战略层面,在国家科技创新中已起到举足轻重的作用。作为科技信息学科的研究者和工作者,我们不能辜负党中央对科技信息战线的期望,要深刻领会中共中央在“十四五”规划中对强化国家战略科技力量的顶层设计和战略规划,要深入研究分析高端交流平台的内涵、目标以及高端交流平台应具备的核心能力,这将为我们后续构建可落地、可应用、可服务、可持续发展的高端交流平台提供理论上的支撑。
1 对高端交流平台的理解
当前,科技信息界对高端交流平台的认识和研究尚处于探索阶段,学界和业界尚未形成有关高端交流平台的统一的、公认的理解和定义,尽管已有部分研究对高端交流平台展开了讨论,但其侧重点各不相同。正如美国情报专家菲利普·泰洛克所言,研究人员要具备蜻蜓复眼观察世界的能力,能够从不同的视角去认识复杂对象的特征,从而以更加全面、系统的方式刻画和描述研究对象的真实面貌[1]。为力求从多视角、多维度对高端交流平台进行全面、客观的分析,深刻认识和理解高端交流平台的本质,笔者将从国家科学创新战略(高端交流平台的背景)、人工智能与大数据(高端交流平台的技术基础与机遇)、科技人员(高端交流平台的需求)3个不同的角度尝试分析、理解高端交流平台,以期能够从更加全面的、更加多维的视角对高端交流平台进行解读。
1.1 从国家科技创新战略角度对高端交流平台的理解
从国家科技创新战略角度来看,高端交流平台的构建是特定时代和历史背景下中国科技创新发展的必然选择。首先,中国作为一个发展中国家,在全球科技创新链中的地位发生根本性的转变。自1949年新中国成立以来,历经70多年的发展,在一代又一代科学工作者艰苦卓绝的持续奋斗之下,中国已经从全世界科学技术落后的国家之一发展成为全球科技创新链中举足轻重的科技创新大国,为全世界科学发展、技术创新持续贡献中国智慧。例如,据世界知识产权组织数据显示[2],2019年中国专利申请数量为140余万件,位居世界第一,是专利申请第二大国美国申请量(62.15万件)的2倍以上,并且在多个世界知识产权指标上有亮眼的表现。因此,笔者认为,高端交流平台是中国科技水平发展到一定阶段的必然产物,高端交流平台的“高端”应该体现出中国当前和未来在全球科技创新领域应有的大国地位和作用。其次,随着全球科技创新格局的变化,中国国家科技创新发展的站位也在变化。中国国家科技创新的发展大致经历了4个阶段,从新中国成立之初一穷二白的“追跑”,到改革开放后有一定基础的“跟跑”,此后随着中国在全球科技地位的上升和综合科技实力的增强,在许多领域已进入“并跑”阶段,当前我国科技创新正在向“领跑”态势发展,逐渐打破由美国和欧洲国家主导的“两极”格局,正在形成“三极”和“多极”的全球科技创新格局。这意味着高端交流平台的“高端”是一种战略性定位,是我国科技自信的表现,是国家有能力引领世界科技创新的具体体现。因此,高端交流平台不仅仅要服务于“跟跑”,即作为了解科技前沿的窗口,更重要的是要服务于“领跑”,即服务于国家科技创新发展的新思路和新方向,在功能定位上要服务于原创性的科学研究、重大基础创新、颠覆性技术研究、世界领先技术的开发等“领跑”的科技创新。
1.2 从人工智能和大数据技术角度对高端交流平台的理解
从技术的角度看,高端交流平台不是人工智能和大数据技术的简单应用,而是人工智能和大数据技术与科学发现过程、科技信息处理深度融合的产物。历史上,人工智能技术在科学发现领域的应用与尝试从未停止过。赫伯特·西蒙在20世纪40年代就进行了科学发现的认知方面的研究[3-4]。20世纪60年代,爱德华·费根鲍姆与乔舒亚·莱德伯格在斯坦福大学研究了有机分子的自动识别和有机分子质谱的学习规则[5]。近年来,以数据挖掘和机器学习为代表的人工智能技术的发展,催生了数据科学,为科学家带来了强大的数据驱动发现能力[6]。人工智能在科学研究和科学发现领域的应用引发了科研活动的颠覆性变革,《科学》杂志曾发文指出人工智能改变了科学[7]。例如,Alphabet旗下的人工智能公司DeepMind开发了一款基于人工智能的分子研究平台,可以准确预测蛋白质在几天时间里会折叠成什么样的结构,在短时间内就解决了过去50年来生物学领域一直悬而未决的重大问题,从而帮助科学家更好地了解疾病和加速药物研发[8]。可以看出,人工智能赋能的科技信息工作和科学研究平台对科学发现与科学创新的影响是前所未有的,他们不但增强了人类科学家科学研究的能力,在某些领域甚至会超越人类科学家,完成人类科学家无法完成的工作。据此,可以说,未来科技创新的主角不仅是科学家,还将会是高端交流平台,未来世界各国科学创新的核心竞争力将是高端交流平台所支撑的科技信息、科技情报的大数据计算能力。因此,高端交流平台作为科技信息工作和服务的主要载体,其“高端”体现在:高端交流平台是高度智能的、综合性的科技信息和科技创新平台;同时,高端交流平台从以往科学研究的工具转变成为未来科学研究的主体以及科学家的合作伙伴,从科学研究和创新的幕后走向了台前,并将成为支撑我国科技创新的重要力量。
1.3 从科技人员角度对高端交流平台的理解
首先,对于科学家和技术开发人员而言,科技信息服务应该是高端交流平台最基础、也最核心的功能。当然,高端交流平台的科技信息服务不是普通的信息服务或知识服务,而是智慧化的服务[9],能够真正做到“想科学家之所想、急科学家之所急”。从用户服务的角度讲,“高端”就是它提供的服务更加智慧、服务内容更加多元、服务的时效性更强、服务的精准性更高,使用户对服务的满意度更高。简单地说,就是有用、好用、权威。所谓“有用”就是指服务所提供的内容齐全、准确、前沿,能够包括科学研究以及科技开发所需的经过提炼的各类型知识、数据,甚至是可执行的代码和分析的工具;“好用”是指高端交流平台的服务模式和交互方式更加便利、智能,不仅有传统的检索、浏览功能,还可以嵌入科学研究和科技开发的过程中,能够理解科学家和技术开发人员的意图和上下文关系,甚至高端交流平台比科学家和技术开发人员还更了解他/她们需要的信息、知识;“权威”是指高端交流平台提供的科学信息、研究成果可信、可靠,科学数据、科学实验可验证、可重现,研究成果的水平和质量可评价、可溯源。
其次,从科技人员的角度看,高端交流平台不仅是一个科技信息的服务平台,而且是一个读懂科学家的人机协作平台、学术研究的交流平台。学术交流是科技创新过程中必不可少的一个重要环节,学术交流可以促进学术思想和知识在科技人员之间以及学术机构之间流动与碰撞,促进不同领域、不同学科知识的融合与创新,其目的是要激发出新的知识和新的观点。当今人类已进入智慧社会,机器(智能传感器、系统平台、智能代理)、人和网络形成一个比人类社会网络还庞大的虚拟网络空间[9],这也包括学术研究和科技开发的知识交流网络。高端交流平台中的“高端”交流具有两层含义:在微观层面上,是指人与人、人与平台、平台与平台之间的交流[10];在宏观层面上,是指国际交流,包括中国与西方国家的交流、中国与“一带一路”国家的交流、中国与第三世界国家的交流等。学术交流的前提条件是要基于一个交流的网络,有了网络才能产生交流,有交流就会有融合,有融合就能涌现出新的知识和智慧[11]。这表明高端交流平台既是一个平台,又是一个网络,更是一个由人、平台、论文、科技信息、科技知识等科技创新要素构成的能够产生新知识和智慧的复杂系统[12]。因此,高端交流平台“高端”交流的目的就是,通过交流打通中国科技创新的“任督二脉”,通过交流提升中国科技创新在全球的软实力,通过交流重塑世界科技创新的新秩序。
综上所述,高端交流平台并不是简单地提升和集成现有科技信息平台的功能,而是在指导思想、功能、定位、效果上都展现出全新风貌的平台。高端交流平台应该是在复杂系统思想指导下,通过顶层设计思维自上而下对国家科技创新系统的重新设计和具体体现,是对科学交流、科学发现、知识创新范式的重新定义,以此保障国家科技创新体系能够应对新时期全球科技创新中包括国家安全、生存环境、医疗卫生、生物安全、地缘政治在内的,涉及国家发展、社会民生诸多方面的重大挑战,从而增强国家的科技创新竞争力、加速国家的科技创新效率、提升国家的科技创新质量。
基于以上3个方面的认识,高端交流平台不是西方科技创新体系和平台的复制和照搬,也不是单纯地对现有各类科技信息平台和交流平台的功能进行提升和集成(当然这并不影响我们要对已有体系和平台的学习和吸收),而是一个具有中国特色的,能够充分发挥科技人员聪明才智的,更加适合中国科技创新需要的,前所未有的平台,这就需要我们在吸收现有创新体系及科技信息平台优势的前提下,对它所涉及的功能技术做全面深入的研究。
2 高端交流平台情报计算能力建设
如前所述,高端交流平台是一个前所未有的平台,可能很难用三言两语就把这个平台说的很清楚,就笔者当前的理解而言,高端交流平台至少是一个数据驱动和知识驱动的综合性科技信息服务与交流平台。要做到数据驱动、知识驱动,就需要情报计算能力的支撑。因此,高端交流平台的落地、应用、服务,一个非常重要的方面就是要加强高端交流平台情报计算能力的建设。所谓的情报计算能力,就是利用情报计算模型、情报分析算法、情报计算框架,通过计算的方式解决科技信息服务、科学发现、知识创新中与知识、情报获取、组织、分析、开发与利用相关的问题,使这些问题的解决模型化、形式化、自动化,最终达到智能化的一种综合性的能力[13]。根据以上对高端交流平台目标、定位和功能理解,在高端交流平台的建设过程中,我们要着重加强构建以下3个方面的情报计算能力。
2.1 知识发现与融合的情报计算能力
科学创新有两个非常重要的步骤,即知识的发现和知识的融合,以计算的方式实现科学知识的发现与融合是高端交流平台最重要的两种情报计算能力。
一方面,高端交流平台的科学知识发现的情报计算能力是指通过知识抽取、知识建模和知识挖掘等算法实现对科技文献的大规模机器自动阅读,以理性、道德和主动的方式寻找、获取甚至构建完成科学研究和技术开发任务所需的知识,从不同类型、不同学科的科技文献中发现有用的、有价值的、可转化的知识,挖掘出科技文献中所蕴含的潜在知识,将这类知识按一定的方式进行组织,用适当的表现方式表达出来,并提供给科技人员,以辅助他们进行知识发现。
另一方面,单纯的、孤立的知识的发现意义并不大,重要的是要将不同来源的知识融合成一个整体,相互比照,去除噪音,保留知识精华(Essence of Knowledge),形成相互关联的知识网络,这是知识创新过程中的最重要的一步。高端交流平台的科学知识融合的情报计算能力就是要将从不同文献中学习到的多个单一的内容、模式、公式、关系等知识通过汇聚、统一、集成等融合模式,转换成可描述、可解释、相对完整的知识链条,使得蕴含在海量科技文献中的隐藏的模式、规律、因果关系等高阶知识显性化,并把这些知识作为科技创新的基础。关于知识发现和融合的情报计算能力可以借鉴的典型实例有哈佛大学医学院INDRA实验室研发的EMMMA(Ecosystem of Machine-maintained models with Automated Analysis)[14],该系统的主要思路是建立一系列计算模型,自动阅读医学文献和医学数据,对其中的知识进行自动化的提取、组配合融合,从而发现生物医学文献和数据中所蕴含的复杂机制。该系统对海量的生物医学文献(约32%的全文,68%的摘要)进行机器自动化阅读并提取250万种知识点之间的关系,与生物数据库(Pathway Commons,SIGNOR和BEL Large Corpus)构成的先验知识网络进行融合,自动化构建了COVID-19病毒生物学的因果机制,用于新药物的研发或对无法解释的临床现象进行机理上的解释,发现了男性比女性更容易感染重症COVID-19的机理。
2.2 情报分析自动建模的情报计算能力
情报分析是情报工作的“看家本领”,是科学研究和探索过程中必不可少的阶段和环节。传统的分析往往依赖于情报分析人员长期积累的经验以及对分析工具使用的熟练程度,分析的效率较低,情报分析研究的可重现性和可重用性较差。高端交流平台应该是一个智慧的平台,在建设中要注重情报分析的自动化能力建设,要深入研究人类专家在情报研究中分析的方式,包括分析过程的模型化和模型的自动构建。
情报分析过程的模型化是指根据情报任务、情报分析的方法以及分析用到的数据,利用系统化和形式化的表达方式对情报分析过程进行抽象的描述,这是实现情报计算化的重要途径。情报分析过程的模型化是近年来情报分析的一个重要特征和发展趋势[15]。总的来看,当前情报分析过程的模型构建过程主要还是依赖学科专家和情报专家的配合,具有非常高的人力成本。随着科学研究越来越复杂,人类在认知方面的局限性和缺点越来越突出[16]。特别是在数据驱动型的研究中,科技文献和科学数据的多样性、异构性、复杂性以及大量的科学假设和科学模型构成了紧密相关但又非常离散的信息空间,学科专家和情报专家都难以在没有任何辅助的情况下准确、快速地构建起有效的情报分析模型。正因为如此,情报分析的自动建模正在成为当前情报界的重要研究课题。例如,由美国DARPA主导的“数据驱动模型发现”项目(D3M,Data Driven Discovery of Models)[17]旨在开发一种用于科学研究的自动模型发现系统,能够为不同科学研究领域的科学家创建真实的、复杂过程的经验模型。该项目的目标有两个:一是辅助学科专家在没有情报专家帮助或者不具备建模知识的情况下能自动生成经验模型,并通过自动化方式提高科学研究的效率;二是通过模型的自动构建,提高情报专家构建分析模型的效率和质量。笔者认为,我国要构建的高端交流平台的功能应该远远超出现有这类项目,成为科学家的得力研究助手。
2.3 科学交流与协作的情报计算能力
科学交流与协作是提升人类解决重大问题能力的有效手段。传统上,情报学侧重于科学交流的现象和规律的研究。随着科学问题变得越来越复杂,科学交流与协作越来越重要,这就需要高端交流平台加强科学研究交流规律的利用与协作能力的建设,从而优化和加速科学发现和知识创新。科学交流与协作的情报计算能力是通过可计算的高端交流网络和高端协作网络,将学科专家、情报专家、研究机构、知识服务平台等科学创新实体连接起来,实现科学知识、科学数据的自由交换、共享及利用,并能通过软件定义的方式有意识地优化重组科学研究交流网络的拓扑结构,从而更好地促进科学创新实体之间的协作,最大限度地发挥创新实体的智慧,推动科学技术的快速发展。
高端交流网络应是可计算的、异构的、面向沟通交流的、大型的复杂网络,它既连接了不同区域的科学研究交流的子网络,也连接了不同领域或不同学科的学科子网络。高端交流网络的连接对象既包括人、机构,也包括机器和平台,从而能够打破地理、学科、组织的界限。一方面,高端交流网络基于科学交流的规律和复杂网络的理论智能地将需要交流和沟通的实体对象连接起来,促进科学知识、观点、思想、数据以最优化的方式进行流动,从而推动理论与方法创新;另一方面,高端交流网络还要具有较强的适配性,既要对人类友好、可理解,也要对机器友好、可计算。
除了科学交流与知识共享以外,当代科学研究越来越需要科学家紧密协作,很多科学问题的解决,需要更多的科学家一起工作数月或数年才能得出满意的结果[18]。目前,跨学科、跨组织的国际合作通过汇集人才、资源文化和科学知识的独特组合促进科学研究的发展,特别需要非常好的协作网络来支撑。未来高端交流平台不仅是一个高端交流网络,同时也应该是一个高端协作网络。高端协作网络是在交流能力的基础之上,通过分布式的科学协作平台,将世界各地的优秀科学家联系在一起从事复杂科学的研究,从而共同解决重大复杂的科学问题。一方面,高端协作网络要具有整个科学研究生命周期的管理能力,从项目的立项,到科学仪器的共享、科学数据的分析,再到研究成果的发布等都可实现在线的、实时的、分布式的协作;另一方面,高端协作网络要具有分布式的项目管理能力,能够制定多团队分工协作的研究计划、进度跟踪、科学数据管理等能力[19]。例如,GitHub就是一个典型的协作平台,研究人员通常用于科学项目的协作管理和代码数据的共享,其中GitHub的Jira用于总体项目管理,研究问题的提出,而OmniPlan则用于创建研究的时间表和跟踪时间。这些功能都值得我们在高端交流平台建设过程中借鉴。
3 结语
高端交流平台的建设是我国科技界一件大事,更是我国科技信息(情报)界的大事,需要我们对高端交流平台的目标、体系结构、主要功能、关键技术、实现路径多个方面做深入的理论探讨和实践探索,这里仅是对高端交流平台做了一点管中窥豹式的认识,但即使是这样,已经能够反映出高端交流平台的建设具有很高的要求,对科技信息(情报)界来说,高端交流平台的建设,任重而道远。