APP下载

基于文献计量和主题模型的对撞机技术发展态势研究

2022-07-14李华东伊惠芳刘细文

世界科技研究与发展 2022年3期
关键词:高能物理对撞机专利申请

李华东 伊惠芳,2 刘细文*,,2

(1.中国科学院文献情报中心,北京 100190;2.中国科学院大学经济与管理学院图书情报与档案管理系,北京 100190)

对撞机是进行高能物理实验、研究物质最基本结构和相互作用规律的重大科技基础设施(简称重大设施)。自20世纪60年代意大利建造第一台正负电子对撞机以来,全世界共建造了二十多台类型不同、能量各异的对撞机,其中包括电子对撞机、质子对撞机、重离子对撞机以及电子-质子对撞机等,对撞能量覆盖了 MeV到 TeV量级[1]。

高能物理的发展与对撞机技术的进步息息相关。高能物理研究的深入促进了相关技术领域的飞速发展,但同时也导致设施本身的工程复杂度越来越高,对技术水平的要求越来越严苛。对承担大科学工程建设运行的国家及组织机构来说,巨大的成本投入、潜在的科学风险[2]、复杂的外部环境等都是可能影响决策方向的重大问题。近年来,国内学术界对是否建设大型对撞机的问题展开了激烈辩论[3-7],重点围绕美国与欧洲的经验教训、领域发展的未来前景、总体资金投入及学科经费分配等几大方面。客观来说,这类辩论对国家科技方向把握与政策制定大有裨益[8,9],但对上层管理者而言,做出决策的首要前提是对事物本身有足够全面的认知。为此,王贻芳等[10]从重大设施在科学发展中的地位与作用出发,回顾了国内外相关领域的发展情况,并着重就对撞机的重要价值与展望规划做了论述;娄辛丑[11]从高能物理发展、国际竞争形势、工程溢出效益等方面说明了中国建设环形正负电子对撞机(Circular Electron-Positron Collider,CEPC)的必要性;岳崇兴等[12]对即将运行或正在设计中的未来对撞机做了简要介绍,并以此梳理了高能物理实验的发展趋势。不过,以上工作多是从高能物理的角度出发,较少涉及对撞机背后的工程技术。大型对撞机是一项投入巨大的工程项目,对项目的前期论证来说,科学研究前景是首要考量因素。除此之外,系统分析国内外研究所关注的对撞机技术主题及演化趋势,对于研发人员把握技术热点与发展方向、优化未来设施技术方案、逐步实现技术赶超,管理人员全面深入认识设施、合理制定相关政策规划等有重要价值。对此,靳松等[13]对CEPC和超级质子-质子对撞机中前沿技术进行了介绍。然而,该文具有较强的针对性,本文希望从更为全面的技术角度进行分析。

专利和论文是发明创造和科研成果的即时、集中载体。本文在分析相关专利和论文年度、国家、机构分布的基础上,利用主题模型,探析最近三十年来与对撞机技术相关的专利和论文的主题构成;分析论文主题演化趋势,并引入信息熵来度量论文主题的差异性、均衡性程度变化。最后,根据研究结论提出了几点政策建议。

1 数据与方法

本研究所用专利和论文数据分别来自Web of Science(WOS)数据库的 DII(Derwent Innovations Index)和核心合集。数据检索日期为2021年7月28日,限定时间范围为1991—2020年。共检索到论文12623篇,专利3914条。

专利检索式:ts=((“particle physics”or“high energy physics”or“Particle*Field*”or“heavy ion collider”or“large hadron collider”or“Beijing Electron positron Collider”or“collider physics”or“accelerat*physics”or“particle accelerator”or“particle collider”or“higgs”)or((“radio*frequenc*”) and (collider or accelerator))or(“superconducti*”and(collider or accelerator))or((vacuum ormagnetic*or beam or cool*or track*or detect*or data or control or circuit or klystron or amplifier ormonitor or trigger or pixel or calorimet*or track or cryoge*or jet or scintillat*or project*or dipole or Quadrupole)and(collider or“particle accelerat*”)))

论文检索式:TS=collider not(WC=Physics,Particles & Fields)

1.1 数据分布

1.1.1 年度分布

近30年,对撞机技术领域的全球发文量呈持续增长趋势,其中1998—2008年的增速最快,近10年(2009—2019)的增速明显放缓;中国在该领域的发文量整体呈稳步增长趋势(图1)。

图1 对撞机技术领域论文年发文量Fig.1 Annual Number of Papers Published in the Field of Collider Technology

图2展示了对撞机技术领域的年度专利申请量。1996年之前,全球申请量基本维持在110件以上(1992年有89件);1996年之后开始减少,且在随后的10年里基本处于波动状态;2008年后,专利申请的态势转好,数量开始明显增加并整体呈现上升趋势。中国在对撞机技术领域专利申请量走势较为单调,2008年之前很少,且未见明显增幅,整体技术发展仍处于摸索实践中;2008年之后呈快速增长趋势,并于2019年达到了当年全球专利申请量的一半。

图2 对撞机技术领域专利年申请量Fig.2 Annual Number of Patent Applications in the Field of Collider Technology

1.1.2 国家分布

图3展示了对撞机技术领域发文量Top15的国家(由于存在国家间合作发表论文的情况,所以将图3中论文数相加大于检索到的发表论文总数)。经统计,1991—2020年,其共发表论文10701篇,占对撞机领域总发文量的89.32%。其中,美国在该领域的研究体量较大,发文量占总发文量的37.44%,约是排名第二位的瑞士发文量的2倍。中国在该领域发表论文1438篇,全球排名第6,居于前列,但其发文量仅占美国1/3左右,仍存在较大差距。

图3 对撞机技术领域论文发文量Top15国家(1991—2020)Fig.3 Top 15 Countries on the Number of Papers in the Field of Collider Technology(1991-2020)

图4展示了1991—2020年间,对撞机技术领域专利申请量排名前15位的国家/地区。发表论文量Top15中的瑞士、意大利、波兰、西班牙、巴西等国并未进入专利申请量Top15,而未在发文量Top15中出现的罗马尼亚、新西兰、澳大利亚跻身专利申请量的前15之列,但数量较少。此外,日本的专利申请量远超美国(第2),约是其1.5倍。相比于论文的发表情况,中国在专利申请方面的表现更好,排名第三,但与日本相比仍有较大差距。

图4 对撞机技术领域专利申请量Top15国家(1991—2020)Fig.4 Top 15 Countries on the Number of Patents in the Field of Collider Technology(1991-2020)

1.1.3 机构分布

对论文的机构归属进行清洗后,本文统计了在对撞机技术领域发文量前20的机构(图5)。排在第一位的是欧洲核子研究中心,与第二名美国加州大学伯克利分校拉开了较大差距。意大利国家核物理研究院和俄罗斯杜布纳联合核子研究所分别处于第3、7位。美国机构占据了榜单中的大多数位置(共有14个)。中国的中科院高能物理研究所和中国科学技术大学分列榜单的19、20名。

图5 论文发表量Top20机构Fig.5 Top 20 Institutions on the Number of Papers

对撞机技术领域专利申请量排在前20位的机构(图6)中,日本企业无论在申请量排名还是企业数量(10个,占比50%)都有明显优势,这表明日本在对撞机技术研发上的雄厚实力。其中,东芝公司专利申请量最高,达到201件,随后是三菱电机株式会社。专利申请量排名前5位的机构中,4位为日本企业,德国西门子股份公司排在第4位。美国企业有6个上榜。中国有两家机构出现在榜单中,分别为中国台湾精材科技股份有限公司(第7位)和中国原子能研究院(第13位)。

图6 申请专利数Top20机构Fig.6 Top 20 Institutions on the Number of Patents

1.2 技术方法

1.2.1 主题模型

本文分别利用LDA主题模型和Content-LDA模型对论文和专利进行主题识别。LDA主题模型[14]将文本看成词频向量,将文本信息转化为易于建模的数字信息,以无指导学习的方法从文本中发现隐含的语义维度“Topic”。其核心公式如下:

Content-LDA模型[15,16]是一个包含词/IPC、主题和文档的三层贝叶斯概率模型,每一篇完整的文档-词/IPC均可抽取为文档-主题与主题-词/IPC分布的形式。相比于LDA主题模型,引入IPC作为词汇语境的Content-LDA模型能够更好地增强主题的表征能力。其公式如下:

1.2.2 主题强度

主题强度描述的是某时间窗口内主题的活跃程度。同一时间窗口下,主题强度值越大,代表主题受到的关注度越大,热度越高。主题强度的计算公式如下:

1.2.3 主题演化

主题演化是在主题识别的基础上通过分析不同阶段的主题来揭示文档集合中包含的主题内容过渡,以了解研究领域的热点及未来发展趋势。本文以对称KL(又称JS距离)[17]来量化主题间的演化关联。此外,为了分析不同主题间的差异性、均衡性程度,引入信息熵的概念来揭示不同时间段下的主题演化情况(信息熵是一种可用于测度系统内部差异或稳定性的指标,信息熵值越大,主体间的结构差异性越来越大,主题内容更加多样[18])。主题信息熵计算公式为

其中,N为主题下的关键词数量,pi为第i个关键词数量占比。

2 主题分析

2.1 专利主题

本文下载的3914条专利数据共涉及三千余个IPC分类代码。利用Context-LDA模型对专利进行主题抽取,辅助以困惑度指标及人工判别后,共从51个候选主题中得到了31个主题:半导体传感器、电容器与电感器、超导装置、转向磁体、束流存储环、阴/阳极导体、真空系统、粒子脉冲与电子电路、真空与磁体、加速电压系统、超导管、电容电阻室、惰性气体与超导磁体、探测器与迳迹系统、束流加速、闪烁探测器、能量控制模块、粒子源、真空电极、半导体闸流管、束流系统与加速腔、光学系统与晶体管、加速系统电极电路、加速器灯丝电源、电压系统、加速器射频腔、磁体线圈、天线与插口、导向装置、隔热绝缘部件、束流注入。

利用式(3),得出这些主题的强度区间为0.00931~0.02285。以这些主题的强度平均值0.01533作为阈值,得到表1中的专利热点主题。

表1 专利热点主题及其强度Tab.1 Patents Hot Topics and Their Intensities

这些热点主题大致可分为与加速过程直接相关的电极电路、电压系统、射频腔、加速腔主题,起基础支撑作用的超导装置、隔热绝缘部件、真空系统、磁体/超导线圈主题,与束流相关的注入、加速、粒子源主题,以及与控制过程相关的光学系统与晶体管、半导体传感器主题。

2.2 论文主题

分析不同阶段的论文主题及其演化情况时,为了使不同时段内的论文数尽可能平均,本文共划分了6个时间段(图7)。以每个时间段内的论文为分析对象进行主题分析。利用LDA主题模型,辅助以困惑度指标确定大致主题数,再经人工解读得到各时段的主题和热点主题(表2)情况。

图7 论文分时段划分Fig.7 Papers Separated by Time

从表2可以看出,每个时间段内的论文主题既有不同的技术构成(如超导磁体、探测器、迳迹系统等),又包括高能物理的领域名词(如希格斯物理、标准模型、高阶计算等),这印证了对撞机作为专用型重大科技基础设施,其技术发展始终与高能物理前沿研究紧密相关。

2.2.1 主题演化

以JS距离来量化主题间的演化关联(相似度)。主题间的相似度越高,具有演化关联的可能性越大。对于六个时间段,选定相似度阈值分别为 0.15、0.18、0.18、0.12、0.12。绘制的主题演化桑基图如图8所示,图中每个标签的高度表示该主题与前后主题的关联程度,每个主题词后的数字与表2中的序号对应,表示所处时间段。

图8 1991—2020年论文主题演化Fig.8 Evoluation of Paper Topics during 1991-2020

表2 论文主题和热点主题Tab.2 Topics and Hot Topics of Papers

从主题演化情况可以看出,有关对撞机技术的论文主题数呈现增加—稳定—减少的趋势。1991—2000年的5个主题体现了三类信息:LHC实验最关注的高能物理领域(标准模型、希格斯物理和重味夸克)、美国费米实验室的超导磁体装置,以及直线对撞机技术。2001—2006年,新出现了一些技术主题,如监视系统、探测器、触发系统、束流系统等。2007—2010年,主题数进一步增加,同时表现出了对LHC的高关注度(22个主题中过半数与之相关)。此时出现的新技术主题包括像素探测器、对撞系统和束流腔、超导与超流氦、迳迹系统、低温系统、闪烁计数器、粒子源等。2011—2014年,论文主题数保持稳定,但内容出现了明显变化,新出现的技术主题包括LHC与μ子系统、反应事例分析程序、粒子识别、概念设计与模拟、前端电子学、数据处理程序、时间投影室、电源系统与存储装置、尾场加速器等。2015—2017年里,论文主题数减少,且几乎所有主题都与LHC相关。此时较受关注的技术主题有直线对撞机、量热仪、存储环、迳迹系统等,与之同时出现的物理领域则有标准模型、暗物质、顶夸克、希格斯等。此外,还出现了与LHC升级相关的主题。2018—2020年,与LHC相关的主题仍然占据最大比重。此时的技术主题中与上一阶段联系较为紧密的有LHC升级与低温系统、超导装置与速调管、μ子物理实验等。

结合主题演化分析及表2的热点主题可以看出,LHC在最近30年的对撞机发展中占据核心地位,这与整个高能物理实验发展相一致。在这六个阶段中,伴随着LHC的建设(1994—2008)、运行(2009—2013、2015—2018)和升级(2018—2020)[19],相关论文主题呈现出了不同的特点,最明显的一点是对撞机技术发展始终围绕着高能物理领域的需求。三十年来,持续受到高关注的高能物理领域是标准模型、希格斯物理,后期关注度凸显的是顶夸克物理与高阶计算领域。在技术方面,超导磁体、迳迹系统、量热仪持续受到关注。此外,与数据处理、信号分析、实验模拟等软件技术相关的主题也是研究重点。需要指出的是,2011—2014年间出现了尾场加速主题,这是未来对撞机发展的可能技术方向,但或许由于其远未成熟且技术挑战较大[20],后续研究的关注点又转移到了其他主题。直线对撞机主题分别在1991—2000和2015—2017阶段显现,造成这种现象的可能原因是LHC建设前,直线对撞机是重要的发展方向。随着LHC的建设运行,对撞机技术的发展也在重点围绕LHC展开,而在LHC的运行后期,科学家对其他类型(环形对撞机之外)对撞机的探索使直线对撞机重新进入了研究视野。一个新兴热点主题是2018—2020阶段出现的CEPC/FCC探测器与(偶极)磁体主题,其中CEPC(环形正负电子对撞机)和FCC(未来环形对撞机)是目前仍处于提案阶段的未来设施,这表明学术界对更高能量、更优性能对撞机的关注。

2.2.2 主题信息熵

从图8可以看出,不同时间段内的论文数有一定起伏,这也造成了不同时段的主题数变化会受到论文数据量的影响。为了弥补该不足,本文计算6个时间段的论文主题信息熵。图9绘制了熵值随时间的变化情况。

图9 论文主题的信息熵演化Fig.9 Evolution of Information Entropy of Paper Topics

结合表2的论文主题数和图9可以看出,在6个时间段内,主题数呈现先增加后减少的趋势,但主题信息熵整体在持续增加,这表明与对撞机技术主题相关的研究呈现更加均衡多样化的发展趋势。

3 结论与建议

3.1 研究结论

通过分析对撞机技术相关的专利和论文数据分布情况、主题及演化过程,本文得出如下结论:

1)全球专利申请量在2008年后快速增加,同时段的中国呈现爆发式增长,年申请量于2019年达到了全球总申请量的一半。日本是该领域申请专利量最多的国家,且与排在二、三位的美国、中国拉开了较大差距。在申请专利机构方面,以日本的东芝公司和三菱电机株式会社为代表的日本企业占据了申请量前20机构中的一半,表明日本企业在高技术产业的显著优势。

2)全球发文量和中国发文量整体都呈上升趋势;美国在该领域的发文总量显著领先于其他国家,中国虽然位居前列,但与美国仍有较大差距;在发文量排在前20位的机构中,美国占了14位。不过,拥有LHC的欧洲核子研究中心是发文量最高的机构。中国的中科院高能物理研究所和中国科学技术大学分处发文量榜单的最后两位。

3)对撞机技术相关专利主题涉及领域众多,其中热度较高的有加速系统电极电路、束流注入、超导装置、隔热绝缘部件、加速电压系统、真空系统、射频腔等主题;与LHC相关的主题在不同时间段中均是研究热点,其中热度较高的技术涉及磁体与螺线管、探测器、迳迹系统、束流腔、超导磁体、存储环、量热仪等。上述分析结果与靳松等论述CEPC中的前沿技术[13]中有超导高频技术、磁铁系统、真空技术、低温技术、束流注入器等的结论有一定的重合度,从侧面支持了本文的研究结果。

4)对撞机技术相关论文主题数在30年里的6个时间段先增加后减少,但这些主题的信息熵的整体趋势表现出了持续增加的特点,这表明该领域的研究主题朝着更加均衡多样化的趋势发展。此外,不同时间段的论文主题无明显演化路径,这表明不同主题间的联系性较强。不过,作为聚焦性较强的特定研究领域,或许需要更为精确的主题演化识别方法来进行研究。

5)希格斯物理、顶夸克物理、高阶计算等领域是目前以及未来高能物理的研究重点,对撞机技术的进步发展是为了能更好地满足高能物理的研究需求。在LHC正进行设施升级的背景下,以CEPC、FCC为代表的新提案对撞机或许是具有广阔前景的未来设施。

3.2 总结与建议

对撞机的技术组成具有极高的专业性与学科壁垒,为了给政策制定者、一线科研人员等提供深度且客观全面的对撞机技术信息,本文深入分析了相关专利和论文的主题情况。在分析专利主题时,采用了能增强主题语境、提高主题可读性和辨识度的的Context-LDA算法,共从近三千条专利数据中抽取了31个主题,在此基础上计算主题强度并得到了14个热点主题。在对论文进行分析时,将全部论文按发表时间划分为了6个部分,利用LDA主题模型对这6个时段内的论文进行主题分析、热点主题计算,研究了不同时段内论文主题的演化情况。为了更直观地展示全球和中国的对撞机技术发展情况,本文分别从专利和论文的年度分布、国家分布、机构分布等三个角度做了对比分析。以上述分析及研究结论为基础,本文提出如下几点政策建议:

1)继续提升专利、论文等成果产出效率,缩小与美国、日本等领先国家的成果总量差距。中科院高能物理研究所和中国科学技术大学是国内在对撞机技术领域成果最为突出的两个机构,与之相比,其他学校或科研机构在该领域应锐意进取、扩大成果。要在拥有排头机构的基础上,形成百家齐放、相互促进的研究环境。

2)加大与对撞机相关的超导装置、束流系统、真空系统、迳迹系统、量热仪等技术方向的研发力度。由于对撞机技术牵涉面众多,且每个方向都具有极高的专业性,科研机构或大学不必事必躬亲,而应寻求与在不同技术领域具有领先优势的企业单位合作。在保证合作主导地位的基础上,释放企业主观能动性与研发效率,在此方面可学习欧洲核子研究中心的先进经验[21]。当然,科研机构或大学也可顺势而为,促进产学研一体化发展。

3)希格斯物理、顶夸克物理,以及与高阶计算相关的精确检验等领域是学术界对高能物理重点研究方向的共识,也是突破现有理论框架(粒子物理标准模型),发现新物理存在的前景方向[22]。为了能更深入、有效地研究这些前沿领域,LHC目前正处于紧张升级阶段,而其后的替代设施如 FCC、国际直线对撞机(International Linear Collider,ILC)以及中国的CEPC等也已完成了设计规划报告[23]。LHC的存在使欧洲核子研究中心成为当之无愧的国际高能物理中心,中国是否建设大型加速器既是国内科技发展方向、经费布局投入的问题,也是国家间科技竞争、事关中国未来科技地位的重大战略问题。在百年未有之大变局的时代背景下,要加快对这个问题的系统研判工作,争取早日落实发展规划。

致谢本文作者与中国科学院高能物理研究所的徐庆金研究员进行了有益的讨论,在此对徐研究员表示感谢。

猜你喜欢

高能物理对撞机专利申请
从一件无效宣告请求案谈专利申请过程中的几点启示和建议
盛宴已经结束
欧洲大型对撞机为巴黎居民供暖
唑啉草酯中国专利申请分析
中国高能物理项目再受瞩目
韩国AI内容专利申请数5年激增10倍
什么是对撞机?
专利申请三步曲
记录
近代物理系的高能物理研究现状