信息来源特征对科学知识采纳的影响研究
2023-08-31石静吴柯烨孙建军
石静 吴柯烨 孙建军
关键词: 科技创新; 知识采纳; 来源特征; 效果评估;专利引用
DOI:10.3969 / j.issn.1008-0821.2023.09.001
〔中图分类号〕G203 〔文献标识码〕A 〔文章编号〕1008-0821 (2023) 09-0003-12
科学知识在技术创新过程中被采纳进而推动创新, 作为基础研究赋能社会发展的一种重要方式,在学界一直受到广泛关注[1] 。早在1985 年, Narin F等[2] 就证明了技术创新发展对基础科学研究的广泛依赖。之后, Meyer M D 等[3] 进一步指出科学技术依赖关系存在领域差异, 生物科技[4] 、生物医药[5] 、化学等领域的科学与技术, 具有较高的依赖与较强的联系, 有的甚至已经形成了独特的转化创新模式。例如医学领域中的转化医学(Transla?tional Medicine), 就是转化创新的典型模式之一,这种模式下, 基础研究与临床研究紧密联系、快速转化, 大大提升了相关领域基础研究成果向临床研究的转化效率[6] , 通过药物研发、疾病诊断等方式为人类社会作出巨大贡献。学者将生物医学领域中此类“Bench to Bedside” 的研究称为“转化科学” (Translational Science)[7] 。随着研究的推进,对技术对科学知识采纳过程的关注逐渐扩散至广泛的科学领域, 如何促进科学知识的技术采纳, 提升基础研究的实践价值与技术创新的研发效率, 成为重要议题。
然而, 在实际创新过程中, 并非所有有价值的科学知识都能被技术采纳, 对被采纳知识及其特征进行研究, 有助于理解科学技术关联创新机制, 提升科技转化效率。知识采纳模型(Knowledge Adop?tion Model, KAM)强调信息接受者通过感知知识的有用性决定是否采纳知识, 这种感知有用性的决定因素包括知识自身特征和信息来源特征[8] 。前人关于科学知识采纳的研究证明: 科学知识所处领域与其研究主题对采纳过程有显著影响, 生物医药领域、交叉学科领域[9] , 以及主题更加基础、新颖的科学研究[10] , 更容易取得较好的采纳效果。但在实际的知识采纳过程中, 质量高的文章并不一定会给信息接受者更高的有用性感知。知识的来源特征或许能够提供解释, 其已经被证明在信息选择、传播与接受过程中产生重要影响。因为相比较, 难直接观测、需要耗费精力的内容特征, 来源特征比较容易观察, 以一种直观便捷的方式(如來源可信度、社会声望)反映知识价值, 用户不需要具备大量知识存储和付出过多的注意力, 就可以做出选择[11] 。尤其是在当前科学信息过载的时代, 人们更倾向于通过外围因素(Peripheral Cues)处理信息[12] 。
在技术创新过程中, 科学知识搜索是知识采纳的首要环节, 且作为典型的知识密集型活动, 在海量的科学知识中检索、筛选、定位到有用的知识,对技术人员的知识、精力要求均较高。技术人员进行相关检索后, 往往难以仔细考察每一条科学知识的具体内容, 此时信息来源特征很可能通过较为省力的外围路径辅助知识筛选[13-14] 。基于此, 本文认为类似于信息来源特征对传播过程的影响机制,科学知识来源特征对其采纳过程可能也存在超出预期的影响, 导致具有相同内容的科学知识产生不同的技术采纳效果。为了验证这一假设, 本研究基于专利引用的视角, 构建全领域技术采纳科学知识的数据集, 测度科学知识的信息来源特征, 探究来源特征对技术采纳效果的影响。
1相关研究综述
1.1技术创新采纳科学知识的影响因素
技术采纳科学知识的影响因素主要可以分为两类: 科学知识的自身特征、创新团队的社会学特征。科学知识的自身特征主要基于知识视角, 关注科学知识自身的内容特征。Ke Q[15-16] 的研究证明,科学知识的基础性(Basicness)会影响技术对科学知识采纳, 相比生物医药领域中的临床研究, 基础研究更容易通过被专利引用的方式支持技术创新; 基础性更强的分子生物学和生物技术术语(如细胞、基因等)更易被专利引用, 但临床性更强的术语(如病人等)更不易被引用, 进一步证明了知识基础性特征对科学知识采纳的正向作用[17] 。此外, 科学知识的创新性(Novelty)也被证明能够促进科学知识被技术利用, 产生直接的技术影响, 不仅能够更多地被专利引用, 而且速度更快, 涉及技术领域更广泛[10] 。
创新团队的社会学特征则主要从社会学视角出发, 关注创新团队的社会学特征。有研究证明, 团队成员的种族差异性大, 不仅能带来异质化的知识,还能够促进国际合作, 扩大国际影响力, 因此更容易产生高质量的科学知识, 产生更大的技术影响[17] 。性别作为一个在科学评价领域备受关注的特征, 也在科学知识采纳中被证明有显著的正向效应, 科学论文中的第一作者往往是知识的主要贡献者, 而最后一名作者往往是通讯作者, 对论文本身质量和影响力有重要影响, 研究证明这两个位置的作者性别为男性的科学论文更易被专利引用[17] 。
1.2 信息来源特征及其影响
信息源选择是信息搜寻行为的首要环节, 用户通过观察信息源的特征对信息质量进行感知, 进而作出信息选择[20] 。Westerwick A 等[11] 提出, 来源特征与内容特征对个体行为具有不同的影响机制,必须分开讨论。最具代表性的解释机制是详尽可能性模型(Elaboration Likelihood Model, ELM), 模型将用户的信息处理模式分为中心路径与边缘路径,内容特征通过中心路径起作用, 往往需要大量的精力与资源投入, 对用户自身能力要求也较高; 来源特征通过外围路径产生影响, 对用户能力、精力要求较低[11,13] 。在信息量爆炸的当今社会, 可选择的知识来源很多, 因此, 为了降低信息处理成本, 人们在信息选择时会更容易受到来源特征的影响[21] 。
作者特征在信息选择与接受过程中的重要作用已经在多个情境下得到验证[22] 。例如, 在舆情信息传播中, 新闻内容相似的情况下, 用户对来自权威机构的政治新闻感知可信度更高[23] ; 在健康社区中, 信息传播会受到信息发布者特征的影响, 来自权威机构、知名医生、专业医护人员、高学历医疗从业者的健康信息会获得更多的關注与认可[24] ;在社交网络社区中, 来自意见领袖的信息更容易获得用户信任, 传播范围更广[25] 。
除了作者之外, 对于科学知识而言, 期刊特征也是信息来源的重要标志, 论文所属期刊反映了科学共同对其传递科学知识相关性、专业性和可信度的判断[26] 。例如, 发表在影响因子较高期刊上的文章往往被更多论文引用, 被认为有更强的有用性[18,27] , 也更有可能被专利采纳, 还更有可能激发突破性的技术创新[17,19,28] 。在高水平期刊多次发表文章的科研工作者, 往往被认为有更多的知识积累、更强的创新能力, 其产出的创新成果往往被高估, 带来额外收益[29-30] 。
2研究设计
2.1数据获取与处理
研究数据来自微软学术知识图谱(Microsoft Ac?ademic Graph, MAG)、PATSTAT(2020 年春季版)和专利论文引用数据(Patent Citations to Science,PCS), 关联3 个数据集共同构建技术采纳科学知识的数据集。MAG 是目前最具规模与影响力的学术知识图谱, 包含亿级学术论文的元数据信息, 为学术研究提供了广泛支持; PATSTAT 是来自欧洲专利局(EPO) 的全球专利数据库, 包含全球专利申请及相关活动的书目信息; PCS 数据集则是Marx M 等[31-32] 关联MAG 数据与USPTO 数据, 基于概率算法所构建的论文—专利引用数据集。本文首先从PCS 数据提取截至2018 年的全部专利—论文引用关系, 用于表征技术对科学知识的采纳。删除存在字段缺失的数据, 共得到29 238 310条记录,每条记录称为一次“采纳事件”, 事件内容为: {论文ID, 专利ID, 采纳时间}。之后, 将引用关系中的论文ID 与MAG 数据进行匹配, 得到这些论文的全部元数据, 将引用关系中的专利ID 与PATSTAT数据匹配, 得到专利的全部元数据, 以备后续指标测度使用。数据集构建过程如图1 所示。
2.2变量定义与测度
在科学知识刚被生产出来时, 其影响力或价值指标(例如引用量)无法被即时观察, 此时人们更倾向使用与科学知识自身相关的特征协助判断知识价值[33] 。基于此, 本研究从知识生产者与知识传播者两个维度, 分别提出作者影响力与期刊影响力两个指标, 作为科学知识的来源特征。二者均是科学知识被生产出来时, 就已经具备的“原生” 特征,不会受到刊载之后传播过程的影响, 也不存在时滞性。其中, 作者影响力反映科学知识生产者在创新系统中的积累优势, 这种优势往往通过其历史创新活动获得, 可以增加其后续成果在系统内的显示度, 带来更高的技术采纳概率, 文中通过作者过去所发表的论文总量测度。而期刊影响力在很大程度上反映了科学知识的质量, 在创新系统内具有较强的引导性, 使用期刊影响因子测度。期刊影响因子(The Influence of the Journal, JIF)指特定期刊过去两年中发表全部文章的年平均被引用次数, 是评估学术期刊影响力的有用工具。无论是作者影响力还是期刊影响力, 都是动态变量, 会随着时间的推移发生变化, 为了更准确地反映其对采纳效果的影响, 均采用动态测度方法, 针对每条记录, 计算截止论文被专利引用当年, 作者和期刊的影响力。
针对采纳效果, 本文从强度、速度、广度3 个维度进行测度。采纳强度, 通过科学论文在专利中的被引次数测度, 反映科学知识对技术创新所做的贡献大小; 采纳速度, 计算科学论文自发表到首次被专利引用时间差的倒数; 采纳广度, 计算引用该科学论文的技术领域个数, 反映科学论文的技术影响范围。上述全部变量描述及测度方法如表1 所示。
3结果分析
3.1描述性统计分析
3.1.1技术采纳科学知识的发展趋势
图2 展示了专利引用论文数据的时间分布情况,图中红色实线是引用数量, 黑色实线是每年被技术采纳的科学论文数量, 黑色虚线是每年引用科学论文的专利数量。图3 展示了被采纳的科学论文的比例变化, 绿色柱状图是各年全部科学论文的数量,黑色折线是当年被采纳的科学论文数量占全部论文数量的比例。
首先, 自1980 年起至2010 年, 技术创新采纳科学知识一直呈现快速增长趋势, 尤其是在2000年后的10 年间大幅增长至150 万次。2010 年后,采纳次数骤降, 科学创新速度经过早期爆发后增速放缓, 科学知识生产总量降低是其主要原因; 其次, 由于任一科学论文可能会被多次采纳, 采纳事件数量远超被采纳论文数量, 前者大约是后者的10 倍, 且被采纳论文占比最高也不超过5%, 尤其是在科学知识总量大爆发时期, 科学知识被采纳的比例却直线下降, 说明大多数科学知识并未直接发挥技术价值。
3.1.2 技术采纳科学知识的领域差异
图4 和图5 展示了采纳事件的科学领域与技术领域分布。其中科学领域的划分采取Milojevic' S[34]所建立的映射, 将252 个Web of Science 的学科分类重新分类到14 个大领域, 消除了原本学科体系中的模糊分类, 整体准确率达到95%; 技术领域则采用施引专利所属的IPC 大类。
图4 展示了14 个科学领域中被专利引用的论文数量分布以及被引用论文占全部论文的比例分布。显然, 医学、生物学、化学、工程学和物理学等领域的采纳事件发生较频繁, 其中, 医学领域有高达125 万科学论文被专利引用; 生物学论文被技术采纳的比例最高, 有7.07%的论文被专利引用。图5 显示, “C 化学; 冶金” “A 人类生活必需品”“G 物理” 3 个技术领域对科学知识的吸收最多,无论是绝对数量, 还是相对比例均如此。
3.1.3 科学知识的相对影响力分析
进一步地, 本节考察不同领域的科学知识对技术领域的影响力。借鉴相对消费指数(Relative Con?sumption Index, RCI)测度某领域科学知识对某领域技术创新的相对影响力[35] , 对于一个给定的技术领域(t)和科学领域(s), RCI 测度科学领域s 的论文被技术领域t 引用的相对比例, 具体见式(1)。
图6 显示, 化学领域、物理领域的整体技术影响力较高。其中, 化学领域对“C 化学; 冶金” “D纺织; 造纸” “B 作业; 运输” 3 个技术领域具有较强影响; 物理学知识虽然整体被采纳比例并不高, 但对“H 电学” 与“G 物理” 技术领域的创新具有较强影响。同时值得注意的是, 知识采纳比例最高的医学与生物学, 在8 个技术领域均未产生较高影响力; 采纳比例最低的心理学与天文学, 在技术影响力中也并未表现很差。
3.1.4被采纳科学知识的来源特征分析
图7 展示了被专利引用的论文的来源特征, 一个很明显的趋势是无论是作者影响力还是期刊影响力, 均随着时间的推移持续增长。对比图2 与图3中整体采纳事件时间分布后期的下降趋势, 这样的持续增长侧面反映出科学系统内部的“马太效應”。科学系统的长期发展带来了不同维度的优势积累,已经获得优势的主体可以借助这种“地位” 获得更多的关注, 创造更大的影响[38] 。从知识生产者——论文作者来看, 在其历史职业生涯中, 可以通过知识生产数量的积累获得这种优势, 而科学知识交流系统的重要中介和信息传播者——学术期刊[37] , 则可以通过引用行为获得更高的地位与声望。占据优势地位的作者和期刊, 在科学系统内的可见度大大提高, 这可能也吸引了技术人员的注意力, 导致其在技术系统中的影响力随之提升。
3.1.5科学知识被采纳的效果分析
图8展示了不同领域科学知识被采纳效果的时间变动趋势。图8(a)采纳强度与图8(c)采纳广度整体趋势波动下降, 但在2000年前后差别较大。2000年之前, 强度与广度均波动上升, 尤其是生物医学与计算机领域。19世纪的三大发现(X射线、放射性、电子)导致了20 世纪前30 年的物理学革命, 随后产生的重大理论成果, 如热力学与电磁学理论、化学原子论、生物进化论与细胞学说、相对论和量子力学, 作为20世纪科学发展的先导和基础, 直接促使未来两百年人类科技大爆发, 知识总量快速积累。得益于此, 越来越多的科学知识被用于技术创新, 科学知识被技术采纳的强度与广度也随之增加。2000 年之后, 虽然科学知识总量仍在增长, 但其增速放缓。创新越来越复杂, 真正有技术价值的科学发现减少, 不仅整体采纳率下降, 采纳强度与广度也快速下降。
但图8(b)中的采纳速度变动趋势完全不同,整体持续上升。尤其是在2010年后, 速率翻了10倍(上方子图展示了近5年的速率变化), 以农学为例, 其平均被采纳时间间隔从1980年的16.92年下降到2018 年的1.88年。考虑到专利文献公开的18个月时滞, 科学领域的创新几乎一经产出就立即被技术引用, 采纳效率提升, 淘汰迭代加速。
3.2回归分析
3.2.1整体回归
通过3.1中对科学知识采纳事件的分析, 可以看到随着时间的推移, 科学知识被技术创新采纳的比例正在降低; 同时, 科学知识淘汰加速, 无法被及时发现与应用的知识很快湮没在知识洪流中。进一步探究科学知识来源特征与其采纳效果的因果关系, 可以帮助厘清影响科学知识采纳的关键因素,有针对性地指导有价值的科学知识生产, 挖掘已有科学知识的潜在价值。本节在原本数据集的基础上进一步提取数据进行因果分析, 考虑到过早的科学知识发现模式与当今差异较大, 且早期数据规模较小, 因此只使用2009—2018共计10年的数据, 合计806734采纳事件。
采用OLS最小二乘回归模型, 回归结果如表3所示。结果显示, 作者影响力对采纳强度和广度均有显著影响(β = 1.071, p<0.01, 模型(2); β =1.218, p<0.01, 模型(6))。知识生产者过去在科学系统内积累的优势, 能够为其新生产的知识在更广泛的技术领域带来更多的技术采纳。但这种技术积累降低了知识被采纳的速度, 技术对该知识的吸收需要更长的时间。相比作者影响力, 期刊影响力在采纳强度与广度上都具有更强的影响, 学术期刊作为科学系统重要的交流中介, 承担着重要角色,长期声望的累积使得其在科技领域的可见性更强,为其知识的广泛、深远传播奠定了基础。令人意外的是, 与作者影响力不同, 期刊影响力与采纳速度呈正向关系, (β =1.173, p<0.01, 模型(4))。
3.2.2分组回归: 学科领域异质性
3.2.1 的分析中没有区分学科领域, 但不同领域的科技创新活动差异较大, 为进一步探究研究领域的异质性, 本节按照14个大领域进行分组回归。图9展示了分组回归的系数及标准差。
分组回归结果显示, 整体来看, 期刊声望对采纳强度和广度影响更大, 对速度影响较小。具体到各个领域, 期刊对交叉科学、计算机科学、农学、社会科学等领域的科学知识被采纳强度影响较大,而对天文学、数学、工程学的影响较小; 对交叉学科、物理学、计算机科学、地理学的知识采纳广度影响较大, 对天文学、数学的广度影响较小。
作者声望在3 个维度均有相似程度的显著影响, 但与采纳速度是负向关系。具体来看, 作者声望对数学、工程学、物理学的采纳强度影响较大,对医学、化学的影响较小; 对工程学、物理学、数学的采纳广度影响较大, 但对计算机科学的影响较小。较为意外的是, 作者声望对医学的采纳广度呈负向影响。
3.2.3鲁棒性检验: 匹配策略
上述模型中, 考虑了学科领域与时间的影响,但仍有可能受到知识内容本身异质性的干扰。为了进一步控制研究内容的影响, 本节采用匹配方法构建实验组和控制组, 进行回归验证。匹配是在条件独立假设上发展出的用于控制协变量的研究策略,通过计算每个协变量的特定值所决定的个体实验组与控制组的平均差异, 利用加权平均的方法将平均因果效应汇总到总的因果效应中[36] 。本节以论文发表时间、所属学科领域与主要研究内容为协变量进行数据匹配, 构建实验组和对照组。这些值在科学知识被生产出来时就已经确定, 满足条件独立假设, 可以赋予匹配结果因果解释。具体来看, 对1980—2018 年的全部论文, 按照各年各科学领域分组, 组内论文进行两两匹配, 选择研究内容最相似的一对作为一组对照, 最终得到7664对论文。实验组与控制组数据的变量统计结果如表4 所示。
基于此匹配数据集, 直接进行广义线性回归。回归结果如表5 所示, 作者特征的影响结果稳定,整体结果与3.2.1 结果相似, 但期刊特征的影响差异较大。表5 显示, 期刊声望在强度、速度与广度上均呈现显著的正向影响, 也就是说对于一组发表在同一时间、同一领域、研究内容相似的论文, 来自较高影响力的期刊会提升被采纳速度, 在更广泛的技术领域, 产生更大的技术影响。
4讨论
4.1技术采纳科学知识成为重要的創新方式
本研究通过专利对论文的引用关系识别采纳事件, 并在较长的时间尺度上观察其变化, 结果显示: 科学与技术的界限逐渐模糊, 技术采纳科学知识已经成为重要的技术创新方式。这不仅体现在采纳事件数量的增长上, 也体现在采纳速度的提升上, 尤其是在2010 年之后, 科学知识一经产出, 几乎立刻被技术引用, 尤其是在某些创新密集的领域,技术研发活动自身具有较强的创新依赖于知识密集特征, 科学与技术之间的互动较为活跃。但由于科学知识总量的爆发式增长, 整体采纳事件的占比仍在降低。同时, 总量的增长也降低了采纳事件的强度与广度, 人们获取有用知识的成本增加, 单一知识的不可替代性降低[39] , 导致大量知识湮没在知识海洋中。这种降低趋势与科技创新的精细化趋势有关。随着科学大爆发时代结束, 无论是学科还是技术领域分类均快速增长[40] , 多数科学研究活动在有限领域中开展, 为少部分技术创新服务。
虽说技术创新采纳科学知识有利于挖掘科学知识价值、节省成本、提升创新效率, 但在实践过程中应该时刻警醒浮于表面的“形式化转化”。本文发现, 科学知识被技术采纳的数量多并不等同于技术影响力大, 例如知识被采纳比例最高的医学与生物学, 并未对技术创新产生较高的影响力; 采纳比例最低的心理学与天文学, 反倒影响力较强。以实践中重要的科技转化方式——产学研合作为例, 不少研究发现, 合作过程存在流于形式、知识共享度低、资源流动性差的问题[41] 。
4.2科学知识来源特征的重要影响
本研究发现, 在广泛的创新领域中, 科学知识的来源特征对其采纳效果具有显著影响。科学历史上存在很多“背靠背” 创新, 每时每刻世界各地都有不同的研究人员围绕同一问题开展相似研究,他们的创新成果相似, 却获得不同的影响力[42] 。这也体现了创新系统中的“马太效应”, 包括期刊和作者在内的创新主体, 都可以通过历史创新活动累积优势, 在科学系统中获得较高的“Status”[43-45] ,使其生产出的知识在同等条件下获得更多关注, 也更容易被技术创新活动采纳。来源特征对采纳效果的显著影响, 从本质上看也是“马太效应” 的体现:更有经验、更活跃的知识生产者, 影响因子更高、更有声望的期刊, 更有可能依赖过去的累积优势,凭借“马太效应” 使得原本相似的科学知识, 获得不同的影响力。
在采纳效果的3 个维度中, 速度展示出一些不同的特点。首先, 虽然“期刊声望越高, 速度越快” 这一结论是显著的, 但相比之下, 采纳速度、广度的回归系数是速度的几十倍。一个可能的解释是, 当前创新系统中的知识采纳速率已经到达一个较高的阈值, 因此能够提升的空间本就很小[46] ;其次, 作者影响力与采纳速度呈负向关系, 这可能是因为产量较高的学者在知识原创性、新颖性方面较强, 但技术成熟度较弱, 从而对知识转化造成阻碍[47] 。
4.3科学知识采纳的领域异质性
科技创新活动的领域特征一直是备受关注的问题, 不同领域的异质性较强, 在研究过程中值得对比分析。虽然整体来看, 科学知识的来源特征与采纳效果的关系在大部分领域一致, 但其系数存在较大差别。本研究通过分组回归发现, 新兴学科、实践性更强、知识更新速度更快的领域, 知识的采纳受到期刊声望影响较大, 而基础学科、理论性更强、知识更新相对较弱的学科, 其知识的采纳受到作者声望影响较大。例如交叉学科, 2021年在我国才被称为正式的学科门类, 是知识更新迅速的新兴代表, 其被技术采纳的效果受期刊特征影响很大。在知识更新较快的新领域, 知识大量快速积累带来检索困境, 但又尚未培养起具有绝对优势“地位” 的作者, 读者会更多依赖期刊地位初筛知识。
5结论与展望
本文通过对1980—2018年的技术对科学知识的采纳事件进行分析, 探索了科学知识的作者、期刊影响力等来源特征对采纳效果的影响。研究结果发现: ①随着时间推移, 科学知识被技术利用的速度加快, 但强度与广度降低; ②实践性较强的领域, 被技术采纳的科学知识的确更多、更迅速, 但这些知识往往不能产生较强的技术影响力; ③科学知识的来源特征对其采纳强度和广度具有显著促进作用, 但在提升采纳速度上影响有限, 甚至会起到抑制作用。
上述结论对科学知识生产与技术采纳具有启发意义。首先, 无论是科学研究还是技术创新活动,都应当有组织、有策略地开展, 不仅应该提升科学知识的质量, 在产学研合作中更应提升技术创新对科学知识的吸收质量, 提升科学知识的技术影响力; 其次, 信息过载导致了知识价值的大幅折损问题也值得重视, “交叉科学” “融合创新” 等措施有望成为打破有限领域创新瓶颈的对策。此外, 管理者在政策制定时有必要考虑领域特征, 针对性地设计资源配置策略, 利用有限资源最大化科学知识生产及技术转化的收益。