基于深度学习的虚拟学术社区智能问答研究*
2021-04-29徐彤阳
徐彤阳 滕 琦
(山西财经大学 信息学院 太原 030006)
0 引 言
学术交流是科研人员科研活动不可缺少的一部分,是促进学术繁荣和技术创新的必要条件。信息化时代,互联网改变了学术资源获取的方式,高度的开放性和交互性的虚拟学术社区,为科研人员搭建了一个信息搜索、信息共享和信息创新的平台,针对特定的专业领域,促进科研人员知识再造,有效发挥知识增值功能。社区内的学术资源和研究成果具有综合性、专业性、创新性和前沿性,已经成为Web流行的信息来源。大数据环境下,学术资源的知识管理和知识服务方式需要创新,以帮助科研人员快速、准确在虚拟学术平台获取想要的专业知识。结合人工智能等技术有助于解决网络信息无序与人们对文献信息的特定需要之间的矛盾,有助于整理、优化复杂的知识体系。智能问答为如何整合信息资源,提高信息资源利用率,为用户减少查询时间,提供准确信息提供了方向,提高社区问答的易用性和可接受的答案周转时间。
智能问答服务是一种界面,使用户以自然的方式与智能设备进行交互,用户提出的自然语言问题灵活多变以及语义信息的复杂抽象,深度学习优异的表示学习能力应用于自然语言处理任务,实现智能问答中问句及答案的语义表征,基于后台知识库输出可能的答案列表,并对用户查询提供单一的响应。与传统的搜索引擎会返回数万条结果,依靠用户甄别,得出结论的检索方式相比,智能问题增强了用户获取知识的便捷性,节省信息筛选时间,提高信息质量。问答系统能更好地理解用户提问的真实意图,直接返回简单而准确的答案而不是相关的网页,有效满足用户的信息需求。智能问答可以满足用户对高质量信息的需求,完善虚拟社区的知识服务和创新发展,使得虚拟学术平台具有较强的知识关联性,用户检索页更加智能化、个性化和优质化。以虚拟学术社区作为研究对象,弥补社区知识服务的不足,研究面向知识服务的智能问答。将聚合的学术资源融入智能问答中,在网络上建立检索效率更高、实用性更强的虚拟学术空间,充分挖掘用户的意图与需求,获取用户现实的查询需求对正确检索,提升知识服务。虚拟环境下将智能问答系统与虚拟学术社区相结合,预先设定问答模型与虚拟角色,与用户进行自然沟通。本文基于深度学习技术,针对智能问答的难点,提出基于深度学习的虚拟社区的智能问答服务模型,解决以下3方面的理论问题:①目前虚拟学术社区知识服务现状?②虚拟学术社区智能问答服务的设计框架?③如何基于深度学习构建问答模型,实现虚拟学术社区的智能问答服务模型?
1 虚拟学术社区相关研究
以Rheingold[1]提出虚拟社区概念为起点,开启了虚拟社区的研究。虚拟学术社区是虚拟社区的一个特殊类型。李立军等[2]运用文献计量法和CiteSpace可视化软件对虚拟学术社区定量化分析,多维度呈现国内外虚拟学术社区研究进展,宏观上揭示其研究现状及研究热点,多集中于基础理论和实践研究。学者们从理论方面论证虚拟学术社区框架内涵、主体和平台类型、信息特征等内容。日本学者Keiko Kurata[3]在医学、化学、物理三个领域发放1 810份问卷,调查结果表明越来越多的学者开始利用网络电子期刊平台进行学术交流,即使仅限于传统信息获取方式的补充。结合学者的研究,付立宏等[4]界定了虚拟学术社区的内涵与外延,并分析其类型及特点。目前,虚拟学术社区尚未形成明确的定义,但内涵强调了其学术性质,利用互联网平台,科研人员进行信息发布、学术互动、知识共享与交流的开放性社区。许美峰等[5]丰富了虚拟学术社区的内涵,基于特定专业主题开展学术信息交流活动的专业社区。从三方面阐述社区范畴:一是以服务学术研究为目的,二是以特定领域的研究为交流内容,三是稳定的专业用户群体。实践方面关于虚拟学术社区的研究主要集中于用户知识交流行为意愿与效率,知识共享实现与模式,平台技术架构与知识聚合等方面的成果。
1.1用户行为层面多数文献以虚拟学术社区的用户为研究对象,主要为高校学生和科研人员,关注在线用户的各类信息行为。学者阐述研究视角不同,用户主体类型划分也有差异。孙思阳[6]以虚拟学术社区用户知识交流行为为研究文献,运用文献计量方法归纳分析了研究进展状况。虚拟学术社区具有独特性,不同场景和情境下用户交互行为不同,有的侧重研究用户信息行为,深度把握用户行为规律,激发虚拟学术社区的知识共享和交流。王战平等[7]依据扎根理论分析虚拟学术社区中用户参与行为类型,以小木虫为例,构建参与用户行为模型。有的社区以咨询为主寻求社会和情感支持,贾明霞等[8]以科研用户真实的心理和行为变化的动态过程为研究对象,以S-O-R模型和MOA理论为框架构建研究模型,探究虚拟学术社区知识交流与知识共享刺激因素引起行为。卢恒等[9]结合运用内容分析、LDA主题模型和社会网络分析方法,从会话交互内容和关系两个维度揭示虚拟学术社区的用户交互特征。
1.2知识交流与共享层面纵观相关虚拟学术社区细分领域中多数研究知识共享,如知识共享意愿和影响因素[10]、知识共享过程机制[11]、知识交流影响因素[12]等。刘虹等[13]基于MOA理论,从动机、机会、能力三个维度揭示知识共享意愿。从过程视角来看,学者知识匹配关系形成后的知识活动。Chiu C M等[14]综合预期不确定理论和社会正义理论,构建开放专业虚拟社区知识共享背后动机的模型。许林玉等[15]以经管之家实证分析,Python回归研究知识共享影响因素。
1.3技术构建层面构建虚拟学术社区的目的是为科学研究服务,针对用户群体为科研人员,为满足自主和协作式学习服务,主题图(Topic Map)[16]将知识个体融入社会,构建知识专家学术社区实现协同合作,基于Web的网络社区[17]支持用户在专业领域内以兴趣组建群体。Web2.0下,章颖华等[18]探讨了Web2.0技术如何应用到虚拟学术社区,利用Web2.0的理念和技术构建虚拟学术社区的体系框架。黄雅文[19]从应用角度,设计与云计算结合构建学术社区概念模型。信息技术的更迭,将云计算[20]引入到虚拟学术社区的建设中,宏观层面构建基于云共享的虚拟学术社区的理论模型,丰富和完善了虚拟社区构建的理论体系。社区内知识聚合的构建也是近几年的研究热点。商宪丽等[21]以平台资源为切入点,通过语义和内容关联挖掘关联标签。基于标签共现实现资源聚合。为提高知识服务,卢恒[22]构建知识图谱对学术资源深度聚合,肖璐[23]以知识资源的聚合粒度为研究点,考虑跨粒度的问题,以单个或多个知识子网络为基础构建网络学术社区的知识超网络。针对多个平台的学术资源,陶兴[24]提出跨平台的知识聚合,建立不同学术社区的知识关联,满足科研人员深层次的知识需求。除了技术导向的学术社区的构建研究,赵青[25]从地区出发分析了学术型网络社区的三个构建条件,包括交流手段、社区主题和合理规范。
目前虚拟学术社区内部主体互动机制理论研究成果最为丰富,即用户行为、知识共享与传播方面的研究。技术层面主要关注学术资源的知识聚合,但是知识服务的研究尚不深入,缺乏对虚拟学术社区构建的实际应用,不利于用户实现知识共享和经验交流。如何利用特定的技术手段创新和完善虚拟社区的知识服务,有待进一步的探索,具体的应用研究如智能问答,提升已有的学术资源工具的效率,分析虚拟社区现状不足的基础上,构建智能问答模型。
2 探析虚拟学术社区的知识服务
知识经济时代,虚拟学术社区以轻松自由的环境迎合了高校学生和科研人员多途径、多层次获取新知识、新技能的知识需求,随时随地动态学术交流,有助于信息共享、知识发现与科研创新。但社区的学术交流与知识共享活动依靠技术要素和知识要素[26]的协同建设与实施。知识要素包括学术知识资源、参与主体和知识共享环境。技术要素主要包括现代信息技术手段和应用人才,以知识要素需求为导向。当前的学术社区也面临着技术陈旧、服务理念落后而无法尽善尽美适应科研群体开展学术研究的诸多问题,如缺乏知识资源整合、实时互动渠道与主动服务手段等。
2.1缺乏知识资源整合良好的虚拟学术社区依靠用户促进搜索与回答。社区用户贡献自身知识,平台内容持续更新,有效的学术资源开放存取的交流方式一定程度上满足科研人员知识数量上的获取,并不能保证科研人员获得恰当、满意的知识内容。
社区内资源资源呈现方式多样性差,主要以主题帖和学术论文形式存在,兼有学术咨询、学术博客。学术论文的文献资源内容比较集中,价值度较高。而主题帖的论坛式交流由于用户本身的学术水平、专业知识与能力良莠不齐,用户提问语言表达具有灵活性,学术回答存在不确定性,用户交互具有随意性,无法完全保证学术质量与价值,会积累以<问题,答案>方式存在的知识,还充斥了许多与学术无关的话题。社区内用户生成内容冗余、数据量大、知识点分散、数据稀疏、规范性差且信息质量良莠不齐,用户通过检索来呈现学术资源,结果多而杂且不准确、模糊,高失败率和低知识质量将影响社区用户的知识交流,激发了高效的知识发现策略的需求。
提高社区知识利用率最直接的方式就是对用户生成内容文本进行知识聚合,构建一个全面而丰富的知识库。限定域关联的知识库为智能问答架构更深层次的语义解析模型提供了底层资源支持。问答系统提供了人类和计算机之间的自然语言交互,并允许从非结构化数据集检索这些答案,以准确的回答帮助社区内的用户快速获取专业知识,打破用户资源利用的屏障,节省时间成本,提高科研效率,提升知识服务。知识库服务于学术平台,科研人员对专业内容的精准度要求高,强调专业知识的描述粒度,需要梳理归纳知识,重新组织后架构到领域词典。学术领域专业词汇多,问句复杂模糊,中英文混杂、口语化等,基于深度学习的智能问答问句的语义理解能力强,帮助科研人员获得全面而准确的专业查询。
2.2缺乏实时检索渠道作为虚拟学术的实时交流社区——问答社区,用户具有知识的需求者和提供者双重身份,生成具有知识价值的用户生成内容。用户由于个人信息能力的欠缺和社区大环境的繁杂,为咨询学术而提出问题寻求解答或用户针对其他用户提出问题,依据自己的经验给予答案。基于互联网技术构建的虚拟学术社区用户针对感兴趣的主题探讨或将需求的学术知识发布为问题,扩大学术交流的点和面。
图1 智能问答框架图
科研人员的知识需求、寻求帮助等活动并不具有时间上的固定性和规律性。论坛、问答社区互动的模式具有滞后性。其次,科研人员中可能只关注感兴趣的或海量信息中没机会看到的问题,不能实时有效地帮助科研支持活动或科研人员,影响学术交流和知识共享。虚拟学术社区需要提供多样化的交流途径。智能问答与学术服务相结合,实现学术问题的实时准确回答,为科研人员提供便捷的学术服务。利用自然语言处理、搜索技术及深度学习实现智能问答系统,有助于准确刻画用户的真实需求,弥补基于关键词的信息检索,解决用户的大量实时需求,帮助用户快速定位有用信息。为提升已有答案的问题提供了便捷,增加信息的复用率,提高学术资源获取效率。
2.3缺乏主动平台服务虚拟学术社区扮演储存、传递资源的角色,用户主动分享,平台被动服务。科研人员对知识获取的意愿与自身的兴趣、社区内资源的满意度等相关,导致大多数社区分享的资源传播受限,源于平台缺乏主动的用户服务。社区内知识服务以用户为中心,需要面向问题解决的、主动的服务方式。
技术与需求的双重推动下,网络开始向“个性、精准、高效和智能”的时代转变,虚拟学术社区中知识模式为多主体参与,检索模式也在迭代中不断演化和更新[27]。智能问答作为主动服务模式出现,将结构化与非结构化的学术资源整合,满足多主体用户共同的需求,对虚拟学术社区具有较强的应用需求。通过输入广泛的自然语言检索,以灵活的方式细化初始化查询,增加信息确定性,消除找不到最佳结果的挫败感,帮助平台节约人力资源和提供智能化服务。
3 虚拟学术社区智能问答模型构建
问答系统的目标是在非结构化和结构化数据收集中找到用户问题的正确答案。为了提升虚拟学术社区信息冗余、实时检索等问题与提高问答效率,从语义、语境和语言结构方面更加智能化的语句识别,构建基于注意力机制的卷积神经网络(CNN)的智能问答系统,对学术资源内容文档进行处理,试图理解文档,根据问题相似度创建深度神经网络,进行问答匹配文档,找到类似于人类回答问题的精简答案。既可以实现简单的开放式问答,又可以实现专业复杂问题的问答。
3.1构建问答模型智能问答由知识库、用户输入、问题处理、答案抽取和用户输出五个部分组成[28]。系统总体流程为:用户自然语言输入后,利用中文分词技术对文本分词,采用Word2vec构建词向量问答相似矩阵,利用卷积神经网络(CNN)构造分类器进行分类处理,构建问答匹配算法,得到领域相关词语,知识理解模块识别问答请求的来源和类型链接到相对应的知识库模块,再经过分词、关键词筛选、自然语言处理语义分析等预处理以从知识库或缓存中采集最准确的答案,基于条件堆积场对查询问句进行实体标注,将满足实例化条件的匹配度最高的查询作为匹配的查询结果输出,若无结果。则返回用户“无查询结果”,结束问答。同时,将用户的回答数据自动保存、以用于数据库的更新(见图1)。
3.1.1 知识库 知识库面向学术领域,数据的正确存储是检索用户问题相关正确答案的必要手段。学术资源中专用名词、新词多,结合领域知识库进行分词标注构建领域词典[29]。 知识库的知识借助于虚拟社区内已经形成的知识内容进行收集、整理、加工与聚合,形成知识领域全覆盖,以满足不同用户的知识需求。基于构建知识库建立问答系统,知识库的搭建依赖于大量且充分的问答语料,但虚拟学术社区的资源语料具有不确定性,采用基于词表的jieba分词。利用自然语言规则,进行词性标注与实体识别。从元素中提取知识单元,为每一个元素分配单词类型,使用单词嵌入对单词进行向量化以捕捉他们的意思。单词通过一个隐藏层从稀疏投影到一个更低维的向量空间,按照单词的维度对其语义特征进行编码。将原始数据通过预处理整合成格式规范的数据导入数据库,形成训练数据所需的原始数据集。知识库进行前期分类的预处理,减少了问答响应时间,增加了系统的可用性。
3.1.2 用户输入 在友好的环境中,用户与计算机问答系统进行交互。接受用户输入的信息,即一个自然语言问题,答案将以文本格式显示用户查询所需要的答案。用户可以接受答案,或者如果用户需要更多关于知识的信息,新的查询将再次提供给系统。
3.1.3 问题处理 问题处理是对用户的查询进行基本的语言分析,包括问题的预处理、问题类型的识别与需要的答案类型。
①分词:分词是将用户的查询语句按照一定规则划分,划分的各部分可单独处理,但每个元素需充分理解整个句子,中文分词则较为困难,存在歧义词、组合词和新生词,需要合理划分才能使句意更加准确。
②词性标注:为每个词指定其词性类别,例名词、动词、形容词、副词、介词、代词和连接词等,再将结果进行关键词与标题词的提取。
③删除停用词:停用词是指无意义的词,如语气助词、冠词、介词和连接词等。删除用户查询中非常常见,同时被认为是有噪声的词,在自然语言处理任务之前除去停用词,可以节省内存、提高处理速度、提升方法的性能,
④领域词典:用来创建用户问题中的单词和本体概念之间的映射。信息直接从数据源中获取。
⑤问题分类:问题分类可以定义为根据给定问题的特征,将问题分配到一组预定义类别的任务。以问题为中心的分析改进信息检索,焦点是问题所搜索的属性或实体。问题主题是问题所涉及的对象和事件。候选段落可以宽泛地定义为任何内容。问答系统通常处理的问题分为两类:事实性和非事实性。事实类问题可以用表达人名、时间、地点等单个单词或短语回答;非事实类问题可以用表达定义、理由或方法的句子或段落来回答。根据用户提问的文本,将具有相似语义的所有句子查找出来。
3.1.4 答案抽取 查询问题处理后,调用答案抽取模块,即对信息检索的结果使用提取技术来呈现答案。问题所要求的预期答案的识别通常是根据问题类型及其语言和语义信息进行的,检索相关知识库,在用户查询与查询知识库中的预定义之间推断语义缩小答案范围,将相似问题集合中的所有答案进行排序,选出最佳答案反给用户。候选答案集是解决类似问题的最佳答案的集合。回答的可信度与问题的相似性被考虑在内。
3.1.5 用户输出 将知识转发给用户,显示问题结果。最终精简答案反馈输出给用户,完成问答查询流程。
3.2基于注意力机制的卷积神经网络智能问答聚焦于词级别的交互与语义信息,很少考虑专家学者在问题回答时需要的专业知识,在问答匹配中利用领域知识挖掘问答对之间的交互信息。基于深度学习的智能问答方式更具灵活性与适应性,将明确或不明确的问句转化为词向量矩阵,通过训练神经网络来计算问题与知识库事实间的相关性。卷积神经网络(CNN)模型在文本分类领域有较好的效果,利用局部感知延伸至全局,更注重语义之间的匹配。虚拟学术社区基于深度学习的智能问答建立了用户与专业知识间的关系。用户将知识需求表达成问题,专家学者无需实时在线,系统主动利用知识库后台检索自动回答,协助用户快速寻找答案。利用卷积神经网络有效地将知识表示融入到问题与回答的表示中,丰富了问答和回答表示,提升了领域知识。注意力机制是根据对人类视觉研究提出,学习并确定重点关注的目标区域,在有限的资源下关注最有效的信息。基于注意力机制的问答模式,有效利用领域词典构建知识库刻画问答对之间的丰富交互关系,学习问答对之间的潜在的交互语义信息,使用注意力机制[30]根据问题的上下文语义,推测出回答该问题时的逻辑,判别连接问答对的不同路径之间的重要性,提升领域专业知识的关联,提升智能问答的检索效率。
基于注意力机制的CNN实现限定领域复杂问答, CNN算法将问句进行语义解析,分析问题结构并转化为一个符合问答(QA)域有意义的问题公式。构建CNN分类器解决问题分类,在预定义的层次类别列表中找到高度相关的目标问题类别,加入并行注意力支路提取显著特征扩大输入感受野,提升重要特征影响力,降低非重要特征影响力[31]。
3.2.1 利用CNN构建分类器 分类器,从数据集中的问题生成问题特征向量,评估问题中词的重要性,形成一组问题标识词,每一词试图表示问题的动机。利用CNN构建分类器,给定数据训练文本分类器模型,在用户提出测试问题时可以将测试问题贴上类别标签,锁定答案的知识范围。CNN模型为:数据输入层(采用基于统计和神经网络训练模型CBOW(词袋模型)训练出词向量矩阵。每个句子通过和双向长短期记忆网络(biLSTW)[32]层进行变换,多次卷积过滤,得到句子的语义表示向量)。卷积层(卷积用于获取句子在不同层次的信息。对输入数据做模型训练,权值集合为卷积核,大小作为扫描感受野。通过卷积核的局部感知实现特征提取)。池化层(矩阵算法实现卷积核池化,以达到分类效果。经过多次的卷积层与池化层的循环,计算动态值Cosine_Similarity表示句子相似度来提取归类的答案。关键字集较短以相关类别贡献扩展关键词更精确捕捉问题特征[33]。全连接层(结合隐藏状态的上下文和前一层的注意向量来创建索引,成为全连接层的输入,得出分类结果。)、输出层(决定答案跨度的开始和结束索引)(见图2)。
图2 CNN模型
3.2.2 注意力机制 神经注意模型广泛应用于神经语言处理中的机器理解或问答。基于深度学习的问答算法模型的注意力机制从众多信息中聚焦关键信息,自我注意学习每对单词之间的全局交互,获得具有信息表征的句子特征,实现问答对与问题对语句的语义关联和解析,提高卷积的表示能力(见图3)。
图3 注意力机制
其中,P是max_pooling,T是激活函数Tanh,Cosine Similarity表示QA输出的语义表示向量进行相似度计算。
注意力机制允许模型考虑上下文和关联句的语境影响,更有利于句子的特征捕获与呈现。利用attention model[34]去计算问题的权重,学习答案向量,使向量包含更多与问题相关的信息量。公式如下:
ma,q(t)=Wamha(t)+Wqmoq
3.3问答示例智能问答系统允许对学术知识有疑问或想要了解学术知识的用户提出关于领域概念的问题。
①用自然语言表达的用户问题作为输入,见图4。
图4 问题输入
②问题处理模块处理自然语言问题,应用分词、词性标注、注释和删除停用词等功能,将自然语言进行标记。问题处理模块的输出,见图5。
图5 问题处理
③将原始的自然语言与预定义语句进行相似度匹配,见图6。
图6 问题相似度
④答案抽取,将结果反馈至用户,见图7。
图7 问答实例
4 总结与展望
随着大数据和人工智能时代的到来,自然语言处理在专业领域发展迅速,运用分类算法、词向量、模糊匹配等技术实现智能问答,为科研人员获取全面有效的学术信息提供了新途径。从技术角度,虚拟学术社区是一个网络应用程序,依赖于计算机资源协调配合实现各项功能服务。社区功能的不断丰富,智能问答的技术也需不断提高。科研人员对某一学科领域深入化、专业化的研究,决定了其个性化知识服务方式。开发简明清晰的智能问答系统、采用用户普遍接受的界面设计风格以及完善帮助系统来提升社区用户使用虚拟学术社区的自我效能,降低用户操作的复杂性。用户语言复杂灵活、自然语义解析困难、算法模型偏离实际应用等问题仍是智能问答的发展困境。知识库越丰富,但知识之间缺乏关联,为了准确识别知识点并匹配提问,需要动态调整和维护大量的关键词。精准获取信息逐渐成为传统搜索引擎的主要矛盾,基于人工智能技术的高效化、精准化、个性化问答系统成为发展主流。社区内建立的各项技术措施和用户使用的互相配合有效发挥系统运行机制的作用,两者相辅相成才能在最大化程度上保障社区安全、平稳、有序的运行。
虚拟学术社区的交流多样化依赖于互联网技术的成熟与发展。学术交流信息内容最常见的形式是科研人员以正式论文的方式表达学术见解或知识,也有科研人员以自身知识和经验为前提未成形或不成熟的个人观点的简单描述,并非一般社区中随意发表的言论。因此,科研人员的语言文字带有个人原创的烙印。社区内的智能问答也需要建立切实可行且有约束力的保护措施,有效保护科研人员的知识产权,提高科研人员对学术社区的信任度。智能问答为虚拟学术社区内的科研人员获取精准信息资源的提供了新视角。在虚拟学术社区相关研究进展和目前存在不足的基础上,构建基于卷积神经网络的智能问答框架,以相关理论和方法为支撑完善和创新虚拟学术社区知识服务的模式,有效发挥可行性问答框架的泛化作用。对于模型仅做了实例研究,并未涵盖学术资源大数据做技术实验,有待后续进一步研究。智能问答的开发与应用在节省时间精力的同时有效满足科研人员的咨询需求。在现有虚拟学术社区的基础上,建设功能更完善、服务更个性化的新型虚拟学术社区。