APP下载

基于深度学习和LDA的学科研究前沿主题识别探究

2022-12-10磊,李君,吴

江苏科技信息 2022年33期
关键词:测度马达向量

石 磊,李 君,吴 婷

(哈尔滨工业大学 图书馆,黑龙江 哈尔滨 150000)

0 引言

研究前沿识别方法通常包括主观法、客观法和主客观结合法。客观识别方法又可分为引文分析法(共被引分析、耦合分析、直接引用分析),文本内容分析法(词频分析、共词分析、爆发词检测、概率主题模型、SAO结构)两大类[1]。引文分析法由于时滞性的缺陷逐渐被文本内容分析法所取代,文本内容分析法中的词频和共词分析不能很好地反映词语间的语义关联,爆发词检测有一定局限性,而原始的概率主题模型也未考虑主题词在上下文中的含义,SAO结构不够灵活、计算效率有待提高。随着计算机硬件计算能力的提升,深度学习技术在文本分析、自然语言处理领域得到了广泛应用。本文提出一种基于深度学习ELMo和LDA概率主题模型的学科研究前沿识别方法。

纳米技术近年来一直备受关注,2016年诺贝尔化学奖授予了3位设计合成出分子纳米机器的科学家。微纳马达作为纳米技术的重要研究分支,是一种能够将外部输入能量转化为动能的微纳米装置。因为微纳马达的尺寸很小,能够完成一些微观尺度的复杂功能,例如纳米组装、纳米制造、靶向治疗,所以微纳马达在微机电系统、生物、医疗等领域具有广阔的应用前景。因此,如何准确地把握微纳马达领域的研究热点,识别研究前沿显得至关重要。

1 模型方法

传统的自然语言文本语义识别,主要有两种方法:一种是预测局部上下文信息的Word2vec词向量模型;另一种是全局主题LDA模型,从整体把握文本主题,两者各有优缺点。2016年Moody首先提出将LDA与Word2vec相结合,以提高自然语言处理算法对文本整体和局部语义内容理解的准确度[2]。本文用ELMo模型代替Word2vec模型,以更好地解决词向量在不同语境语义不相同的问题。

1.1 ELMo模型

ELMo模型于2018年被首次提出,它主要是基于深度学习领域的循环卷积网络原理,建立一个与上下文信息相关的词向量,为多义词提供更好的向量表示,克服了Word2vec词向量只能表示词语单一语义的问题[3]。原始词向量经过前向与后向结构的多层神经网络训练后,得到与上下文信息有关的动态词向量。图1为ELMo模型框图,输出词向量为输入词向量和各隐含层向量的加权和,这其中包含了大量上下文相关信息。

图1中第k个单词的ELMo输出向量可以表示为:

(1)

图1 ELMo模型

1.2 LDA概率主题模型

LDA是Blei于2003年提出的一种文档主题生成模型,是以文档-主题-词语的3层贝叶斯结构来实现文档中主题及词汇生成的,能够识别大规模文档中潜藏的主题信息[4]。在模型的3层结构中,首先假设词由主题的概率分布产生,其次假设文档是由潜在主题的概率分布产生,再次针对每个文档从Dirichlet分布中抽样产生该文档包含的主题,最后结合主题和词的概率分布生成该文档的每一个词。

2 数据来源及研究方法

2.1 数据来源

2.1.1 数据获取

因为SCIE收录的文章专业性较好、质量较高、影响力较大,本文选取该数据集,文章类型选择Article,Review,Proceeding,Letter 4种,检索主题词要考虑各种英文同义词和变形表达式。检索时间范围设为2006—2020年,共检索到文章4 763篇,经过去重和数据清洗,剩余4 711篇。

2.1.2 数据预处理

检索主题词限定于文章的题目、摘要所包含的内容。利用英文自然语言预处理工具NLTK,对检索后的文本内容分别进行分词、词干提取、词性归并、词性标注、去停用词等步骤,最后得到具有实际语义的词汇组成的文本集合。

2.2 研究方法

2.2.1 基于ELMo和LDA模型的研究热点主题识别

图2 学科研究前沿主题识别流程

2.2.2 前沿主题的测度指标及权重系数

目前学术界已有关于评价研究前沿的特征测度指标,本文选取主题强度、主题新颖性、主题创造性、主题交叉度作为研究前沿的测度指标。主题强度用同一主题内的篇均被引频次表示;主题新颖性用同一主题篇均发表时间表示;主题创造性用不同主题的主题词向量间语义相似度表示;学科交叉度用同一主题学科分布和学科距离表示[5]。再通过熵权法计算不同时间段学科研究前沿测度指标的权重系数,最终确定研究热点主题的前沿性先后排序。另外,为了比较微纳马达领域研究前沿长期和近期变化差异,本文选取2006—2020年、2016—2020年两个时间段进行对比分析。表1为两个时间段研究前沿主题测度指标的权重系数。

表1 研究前沿特征测度指标权重系数

2.2.3 前沿主题的识别结果

表2和表3分别为2006—2020年和2016—2020年两个时间段微纳马达研究热点主题前沿性综合测度结果。两个表中,对4个研究前沿特征测度指标都进行了归一化处理。从表2和表3可以得出以下结论:第一,与主题概率分布相关性最大的主题强度对前沿主题综合测度排序并不起决定作用;第二,近5年的细胞马达、集群微纳马达、生物相容性微纳马达这些新的具有挑战性的研究主题替代生物应用、水环境应用、磁驱动微纳马达进入研究热点行列;第三,作为微纳马达重要应用领域的医学应用由于较好的经济前景,一直位列研究最前沿。

表2 2006—2020年研究热点主题前沿性综合测度

表3 2016—2020年研究热点主题前沿性综合测度

3 研究热点主题分析

3.1 微纳马达热点主题

3.1.1 医学应用

微纳马达可以深入人体血液系统等狭小复杂的空间,能够精确灵活地识别捕捉操控细胞或分子,在医疗领域有着非常广阔的应用前景,靶向给药是微纳马达最主要的医疗应用的研究方向[6]。

3.1.2 自驱微纳马达

自驱微纳马达利用自身非对称的物理结构或化学反应进行自主运动。常见的自驱动机理有基于浓度梯度的自扩散泳、基于温度梯度的自热泳、基于电场梯度的自电泳、基于压力梯度的自声泳以及气泡驱动。

3.1.3 Janus微纳马达

Janus微纳马达是一种重要的自驱动马达,它利用了Janus粒子各向异性结构的特性,实现Janus粒子的自驱动行为。目前,Janus微纳马达的驱动方式包括自扩散电泳、气泡驱动、感应电荷电泳、自热电泳等[7]。

3.1.4 DNA纳米机器

DNA 纳米机器主要有 DNA walker,DNA tweezer,DNA motor 等。DNA walker可以实现信号的富集放大作用,用于构建各种生物传感器;DNA tweezer将分子之间的相互作用转为信号的输出,可用于各种生物分子的检测和逻辑的运算;DNA motor能实现对光能、机械能、化学能等的转化和输出,可应用于新能源的开发[8]。

3.1.5 生物应用

通过在微纳马达的表面修饰不同的生物识别分子制备马达式生物传感器。利用生物分子间的特异性反应,马达式生物传感器可进行目标分子的特异性识别、运输、分离和富集。

3.1.6 水环境应用

由于工业化生产快速发展,水中的有害化学物质如重金属、化合物以及有机污染物污染环境,影响水质,危害水中微生物。微纳马达具有制备简便、成本低、灵敏度高、响应时间短等优点,在环境检测、污染物吸附和降解等方面有着广阔的应用前景。

3.1.7 磁驱动微纳马达

磁场驱动是目前控制微纳马达运动的常用有效手段之一。在微纳马达制备过程中,加入镍、四氧化三铁等磁性物质,通过外部磁场实现对微纳马达的驱动。

3.1.8 分子通信

由于单个微纳马达仅能在有限的空间范围内执行简单的任务,为了能够在更大的范围完成更复杂的任务,需要微纳马达之间通过信息共享,以合作的方式组成纳米网络。基于生物启发的分子通信被认为是实现纳米网络最可行的通信技术之一。

3.1.9 细胞马达

这类微纳马达可将细胞的生物运动作为动力源,还可将细胞用作货物运输载体。细胞独特的性质赋予了细胞马达良好的生物相容性及生物响应性。具有运动能力的细菌是设计细胞马达的良好选择。

3.1.10 集群微纳马达

为了使微纳马达承担更多复杂的工作,使单个马达具备群体协作能力,对微纳马达集群化的研究逐渐成为该领域的重要方向。有学者报道了AgCl微纳马达在紫外光的照射下产生聚集现象,并且能与SiO2微球组成仿生系统以模仿自然界中的捕猎集群行为。

3.1.11 生物相容性微纳马达

自驱动微纳马达早期主要靠过氧化氢等有毒化合物进行驱动,这将严重阻碍自驱动微纳马达在生物体内的应用程度。镁基双面微纳马达是目前生物相容性最好的自驱微纳马达。镁基微纳马达通过化学反应产生氢气作为推动力,其他元素也可以很容易被去除。

3.2 研究热点前沿综合分析

微纳马达在医学中的应用一直是该领域关注的核心焦点。自驱动由于不需要外加控制场是微纳马达最受欢迎的驱动方式,Janus由于其结构各向异性是自驱动微纳马达的一种优选方式。但自驱马达能量源和自身材料对生物体的毒性一直未解决,因此,近年来很多学者把更多精力投入具有良好生物相容性的微纳马达研究中,以细菌为载体的细胞马达成为生物相容性自驱马达的备选方式。集群微纳马达可利用协同工作克服单个微纳马达功效受限的缺点,近年来备受学者追捧,其中一项关键技术分子通信亟需取得实质性的突破。

4 结语

本文提出一种基于深度学习ELMo模型和LDA概率主题模型的学科研究前沿主题识别方法,可以应用到包括微纳马达等其他各学科研究前沿识别中。微纳马达领域的研究经过十多年的蓬勃发展,在许多方向取得了巨大的成果,未来还应该开展以下方面工作。第一,对现有微纳马达运动的控制不够精准,需进一步探索新型可控纳米驱动原理;第二,由于生物介质的黏度相对较大且含有较多的电解质,微纳马达在其中运动的速度会减慢,需要新型高效的马达来实现更快速地运动;最后,实际应用中微纳马达所处环境总是复杂多变的,发展能随机应变的智能微纳马达,也是今后值得深入探索的重要方向。

猜你喜欢

测度马达向量
三个数字集生成的自相似测度的乘积谱
向量的分解
R1上莫朗测度关于几何平均误差的最优Vornoi分划
聚焦“向量与三角”创新题
非等熵Chaplygin气体测度值解存在性
Cookie-Cutter集上的Gibbs测度
“马达”外公
枰中侠侣
马达螺纹水壶后盖注塑模具设计
向量垂直在解析几何中的应用