融合多源异构在线评论的开放式创新社区创意采纳预测研究
2024-02-04刘嘉宇祝琳琳李世钰
刘嘉宇,李 贺,沈 旺,祝琳琳,李世钰
(吉林大学商学与管理学院,长春 130012)
0 引 言
党的二十大报告全面系统深入地阐述了中国式现代化的科学内涵[1]。随着数智化技术和知识经济的发展,越来越多的企业意识到仅仅依靠内部资源进行高成本的创新活动,已经难以适应快速发展的市场需求以及日益激烈的企业竞争。在这种背景下,“开放式创新”逐渐成为企业创新的主导模式[2]。Chesbrough[3]首次明确提出了开放式创新的概念,该观念强调用户不再是产品的被动接受者,而是企业在市场实践中取得竞争优势的重要力量。以小米MIUI 论坛、Dell's Idea Storms 和Apple Develop‐er 等为代表的社区,更是开放式创新理念的生动实践,通过整合用户创意和企业内部资源,构建了用户和企业双赢的创新生态。在该类开放式创新社区中,用户围绕产品使用经验、改进建议、新创意等,产生了大量的在线评论[4]。这些在线评论包含了许多有用的信息,如产品创意,这些信息不仅可以为消费者提供购买决策支持,而且可以让生产商和供应商识别产品创新机会。然而,社区中同样充斥着众多无实质性内容的信息,这严重影响了企业吸纳用户创意方案的效率。因此,如何在海量的用户评论中快速筛选出有价值的创意,加快企业创新资源的涌入,即创意采纳预测成为企业和社区平台管理面临的重要问题。
既往以在线评论为数据源预测开放式创新社区中的创意采纳研究主要依靠单一的文本特征[5-6]。不可否认的是,文本评论中片面、过时,甚至虚假、错误的信息广泛存在,严重降低了基于在线评论的创意采纳预测的效率和准确性[7]。在线评论数据来源不同,形式多样,同一对象的不同表达之间存在很大差异,迫切需要完整、有效、灵活、高扩展性的数据集成框架和数据融合方法,高效地预测有价值的用户创意。因此,本文提出了一种多源异构在线评论数据融合基础上的创意采纳预测方法。多源异构作为大数据的基本特征之一,其概念源自军事领域,即通过多传感器获取多层次、多方面的信息,并对这些信息进行整合、加工和处理,以达到特定的目的[8]。在社会化环境中,特别是电子商务领域,多源异构在线评论的定义至今仍不清晰,这严重限制了多源异构在线评论的价值发掘和利用。为实现基于多源异构在线评论数据融合的创意采纳预测,本文基于信任转移和价值共创理论,对多源异构在线评论做出了解释。此外,在多源异构数据融合任务中,现阶段的数据挖掘手段存在研究粒度较粗、忽视图逻辑作用、研究体系不完善等问题。基于图论的图模型,作为一种数据挖掘手段,能够使数据集之间实现基于语义的整合,不仅能够提供基于语义的思考框架,还能在更高层面上考虑各数据仓储的相互联系[9]。当大量的在线产品评论数据映射成一个整体图模型时,有助于产生新的规律,进而提供知识发现的新视角。
鉴于以往研究中存在的问题和应用图模型进行数据挖掘的优势,本文提出了融合多源异构在线评论的开放式创新社区创意采纳预测研究,主要研究内容包括:第一,归纳了信任转移和价值共创视角下多源异构在线评论的定义;第二,实现了基于图模型的多源异构在线评论数据的特征级融合;第三,提出了基于多源异构数据融合的开放式创新社区创意采纳预测模型;第四,验证了图模型中的图注意力网络在分类场景中的应用优势。通过上述研究,旨在帮助开放式创新社区管理者畅通与外部创新资源的沟通交流渠道,及时响应外部需求来改善产品和服务,进而赢得市场优势。
1 相关工作
作为创意生命周期的最后环节,创意的采纳与否成为衡量其质量和价值的标准,在创新过程中发挥承上启下的作用,最终影响企业创新的方向和效果[10-11]。然而,随着开放式创新社区用户建议的过载,如何在资源有限的情况下帮助企业和社区平台预测有价值的创意,已成为国内外研究的一个热点。现有研究主要集中在以下几个方面。①领先用户识别研究。这类研究认为领先用户提出的建议往往是高价值的创意。例如,黄璐[12]在研究Salesforce社区时,通过细分用户群体,构建了基于AdaBoost算法的开放式创新社区创意采纳预测模型;Marti‐nez-Torres 等[13]应用粒子群优化方法提取用户参与特征,以识别具有更多机会产生潜在可采纳想法的领先用户。②基于在线评论文本情感分析的开放式创新社区创意采纳预测。例如,王婷婷[14]通过分析评论情感对创意采纳的影响,采用支持向量机和随机森林算法进行了创意采纳预测,为企业后续筛选和预测创意采纳提供了理论依据;Lee 等[15]选择MyS‐tarbucksIdea.com 获取创意和评论中的情感特征,利用人工神经网络、决策树和贝叶斯网络等数据挖掘技术开发了新的分类模型,以识别潜在的创意发布者。
图模型是一种由点和线组成的用于描述系统的图形[16]。语义丰富、灵活、可扩展、适宜数据量庞大的应用以及支持分布式数据存储,使图模型适应网络化的计算环境,比其他算法更适合社交网络背景下的数据挖掘研究。基于图模型融合多源异构在线评论的应用研究主要集中在以下几个方面。①基于图模型融合多源异构在线评论的个性化推荐研究。例如,Hu 等[17]提出了一个高效的数据融合模型MR3(a model of rating, review, and relation),同时融合评论评分、评论文本和评论社会关系3 种异构数据,并结合邻居图结构挖掘隐式反馈信息,实验结果表明融合多源异构评论信息的模型系统推荐性能良好。②基于图模型融合多源异构在线评论的产品排序研究。例如,Yang 等[18]提出了一种集成在线评论丰富和异构信息的方法,将在线评论分为描述性信息和比较性信息,并将两种信息整合到有向图结构中,最终得到了产品的排名,帮助消费者在比较多个产品时做出适当的购买决策。③基于图模型融合多源异构在线评论的用户需求挖掘研究。例如,Guo 等[19]提出了一种考虑用户个人需求的在线评论挖掘方法,并通过有向图模型来集成多源异构的产品评论信息,将评论文本数据和数值数据结合了起来。由此可见,图模型为基于在线评论的个性化推荐、产品排序和用户需求挖掘等提供了新的方法技术支撑。
综上所述,已有的以机器学习分类算法预测有价值创意的研究主要关注单一的文本属性如情感特征,忽视了评论数据其他方面的应用,存在挖掘粒度较粗的问题。此外,基于图模型融合多源异构在线评论的开放式创新社区创意采纳预测的应用研究较少。即使有学者利用在线评论实现数据融合基础上的创意采纳,更关注的也是多源异构数据,在线评论仅作为多源数据的一种,这无法充分发挥出评论数据在创意采纳预测中的应用价值。更重要的是,多源异构数据融合研究虽取得了一定的突破,但多源异构数据融合的定义不适用于多源异构在线评论。其原因在于多源异构数据融合中的“多源”指的是来自不同传感器中的数据,而在线评论是每一个用户根据自身对产品或服务的体验产生的观点、想法。在多源异构数据理念下,在线评论本身即具备多源的属性,而数据多源是数据异构的前提。尽管已有的关于多源异构数据融合的研究针对同一主题选择了不同的数据源,并取得了理想效果,但不同平台或数据集存在字段内容不一致、不清楚是否为同一用户等问题,这给多源异构在线评论数据融合问题带来了一定的困难。因此,需借鉴多源异构数据理念重塑多源异构在线评论的内涵,并选择适合多源异构在线评论数据融合与挖掘方法。
2 融合多源异构在线评论的创意采纳预测方法
针对单纯基于评论文本的开放式创新社区创意采纳预测和多源异构在线评论数据融合存在的挑战,本文提出了融合多源异构在线评论的创意采纳预测方法。遵循“理论基础→数据获取→特征体系设计→特征融合→效果评价”的研究逻辑,图1 描述了本文方法中的各功能层级及机理内容。①理论基础层:数据级融合、特征级融合和决策级融合是目前最常见的数据融合方法[20]。在多源异构在线评论数据融合任务中,数据级融合面临实体无法对齐和不同平台数据字段不统一等问题,而决策级融合则存在真实数据质量不佳和决策成本代价高的问题。因此,本文采用特征级方式融合多源异构在线评论。此外,本文基于信任转移理论和价值共创理论,定义了多源异构在线评论。②数据获取层:依据多源异构在线评论的定义,获取社区平台中评论用户及其与其他用户互动中产生的文本型评论(评论和追评等)和数值型评论(情感和评分等),构建多源异构在线评论数据集。③特征体系设计层:基于启发式系统性说服模型,本文提出了结合启发式评论者、启发式评论和系统性评论等多维度特征来实现创意采纳预测的方法。④特征融合层:从多源异构在线评论数据融合方法的角度来看,本文选择了图模型中的图注意力网络,实现启发式评论者、启发式评论和系统性评论数据的特征级融合。⑤效果评价层:将本文方法的识别结果与已有同类研究中的识别算法进行对比,以说明本文方法的性能和数据融合的效果。
图1 基于多源异构在线评论数据融合的创意采纳预测方法
2.1 信任转移和价值共创视角下在线评论的多源异构特征
在实现基于多源异构在线评论数据融合的创意采纳预测研究前,本文首先依据多源异构数据融合的理念,归纳了多源异构在线评论的定义,并基于信任转移理论和价值共创理论分析了在线评论本身具备的多源异构属性。
Khaleghi 等[21]将多源异构数据融合定义为,为了共同的任务或目标,把不同用户、不同来源渠道产生的具有多种不同的表现方式(如数值型、文本型、图形图像、音频视频)但描述同一主题的数据融合在一起。正如上文所述,在线评论是不同用户在体验同一产品或服务后,根据自身的实际感受采用评分或撰写文本方式,针对产品或服务提出的观点、看法。显然,在线评论本身就来自不同用户,即具备多源异构的属性。因此,在多源异构数据融合理念和在线评论本身多源异构属性的指导下,将多源异构在线评论的多源定义为来源多源,即在线评论是由不同用户所发表的关于产品/服务的观点。将多源异构在线评论中的异构定义为数据结构异构,文本型、数值型、图片型和音频视频型在线评论均可视为异构性在线评论。因此,本文所做的基于多源异构在线评论数据融合的创意采纳预测的主要任务是,对不同用户针对同一产品/服务发布的数值型、文本型建议性评论抽取相应的特征,在特征融合基础上实现产品创意采纳的预测,并对预测结果进行评价。
2.1.1 信任转移视角下在线评论的多源异构特征
信任转移理论表明,当委托人几乎没有直接经验时,信任可以从一个可信的证据来源转移到另一个人或群体[22]。Stewart[23]认为信任转移同样适用于互联网环境,即用户在与技术互动或在线上环境决策时,信任发挥着至关重要的作用。Verhagen 等[24]的研究结果表明,消费者对实体店的服务、商品、氛围和布局等的信任,显著影响了消费者的在线购买意愿。同样地,关于在线评论的相关研究结果表明,对评论者的信任会使阅读评论的用户将信任转移到对评论者评论的信任上。例如,Ma 等[25]发现评论者的评论频率、评论长度和评论可读性,会随着评论者徽章级别的提高而显著增加;Leong 等[26]认为,评论者属性如语言风格、发表的体验和个人资料照片的披露在移动社交商务的信任形成中的作用至关重要。因此,本文认为企业在对用户的创意进行采纳决策时,不仅会考虑评论者的评论文本,还会考虑评论者的个人属性。也就是说,对评论文本的信任转移到了对评论者的信任上。因此,在将多源异构在线评论的多源定义为来源多源的情况下,本文认为特征来源多源,即来自评论和评论者的特征均会影响企业对用户创意的采纳。
2.1.2 价值共创视角下在线评论的多源异构特征
消费者使用企业产品创造价值、消费者与消费者互动创造价值以及消费者与企业互动创造价值是消费领域价值共创典型的3 个层次[27]。张宁等[28]分析了企业开放式创新社区创意采纳影响因素,发现创意的信息熵和情感强度对创意采纳有显著正向影响,消费者间的互动正向影响创意的采纳;消费者间的互动包括对创意的浏览、点赞和评论。企业是否决定采纳用户的创意,本质上考虑的是创意的价值,而创意的价值不仅来自消费者和产品的互动、消费者和企业的互动,更受到消费者与其他消费者之间的互动的影响。也就是说,消费者、企业和产品之间的互动能够增加创意的价值。因此,在将多源异构在线评论的多源定义为来源多源的情况下,本文认为价值来源多源,即来自消费者、企业和其他消费者间的互动产生的价值均会影响企业对用户创意的采纳。
2.2 启发式系统性说服视角下基于在线评论的创意特征设计
基于多源异构在线评论的定义,本文将在线评论的多源定义为来源多源,来源多源包含特征来源多源和价值来源多源,异构指的是与产品创意相关的文本型、数值型等评论的数据结构。围绕该思想,本文基于启发式系统性说服模型分析了基于在线评论的创意采纳的影响因素,并设计了创意的相关特征。在已有研究中,学者试图通过使用启发式系统性说服模型(heuristic-systematic model,HSM)来理解影响在线评论感知价值的因素,该模型假定信息可以被系统性或启发式地处理[29]。用户提交的建议型评论,本质上是说服企业接受自己建议的过程,因此,启发式系统性说服适合创意采纳情境。基于此,本文将多来源特征分为启发式评论、启发式评论者和系统性评论3 类,从在线评论中表征有价值的创意。
2.2.1 启发式评论特征
当读者不想对所呈现的信息考虑太多时,可以基于表面内容对信息进行启发式处理。关于在线评论的启发式特征,已有研究主要考虑的是文本的语言学特征[30]。基于多源异构在线评论的定义,消费者和消费者的互动也可以增加评论文本的价值,促进创意的采纳。已有研究表明,消费者和消费者间的互动行为,如创意的点赞、参与和回复,对创意采纳起到了积极作用[28]。因此,本文中的启发式评论特征主要包括创意语言学特征和创意价值共创特征。其中,创意语言学特征主要包括创意长度、创意中相关词语的词频(如命名实体、数词和量词)、评论中相关词语的词性(如名词、动词)和创意丰富度(如创意的表达方式),创意价值共创特征主要包括创意支持度(如创意获得的点赞数)、创意流行度(如其他用户对创意的回复数)和创意关注度(如创意的参与人数)。
2.2.2 启发式评论者特征
当读者基于表面内容对信息进行启发式处理时,对评论者身份、地位等的信任可以转移到对评论内容的信任,增加基于评论的创意采纳的概率。因此,本文从启发式系统性说服模型的角度出发,将与在线评论相关的启发式因素分为评论者和评论维度。启发式评论者特征主要包括创意者人口统计学特征和创意者行为特征。其中,创意者人口统计学特征主要包括提交创意用户信息,如是否有头像、身份勋章数、粉丝数、关注数和圈子数;创意者行为特征主要包括获赞数、活跃勋章数、历史动态、以前提交的创意数、之前被采纳的建议数和创意采纳率。
2.2.3 系统性评论特征
当读者仔细阅读评论并考虑所有可用的信息时,是在系统地处理信息。已有研究考虑了系统性信息处理中评论信息的情感和评论内容的质量。情感分析的中心是确定文本背后的观点,一种常见的分析类型是情感极性检测,即某个文本的总体方向是正面、负面或中立。情感强度作为情感的量化,也能说明评论者的情感特征。此外,主题模型作为一种可以从内容中识别潜在内容模式的工具,其将文档视为概率主题的产物,并帮助发现出现在文档集合中的一组主题。除了基于文本揭示主题外,应用主题模型方法还可以实现文本特征提取的大幅降维。因此,本文的系统性评论特征主要包括创意情感特征和创意主题特征。其中,创意情感特征主要包括情感强度和情感极性,情感强度可基于SnowNLP 得出,SnowNLP 的取值范围为[-1,1],越接近1 则情感越积极;创意主题特征是基于主题模型确定出的评论文本的主题内容。
2.3 融合多源异构在线评论的创意采纳预测过程
2.3.1 融合多源异构在线评论的图注意力网络构建
图注意力网络(graph attention networks,GAT)本质上是一种图神经网络,通过将注意力机制(at‐tention)与图卷积结合,适用于处理图结构化数据。GAT 的优势:①不需要了解整个图结构,只需知道每个节点的邻居节点;②计算速度快,不需要昂贵的矩阵运算,可以在不同的节点上进行并行计算;③可以对未见过的图结构进行处理[31]。鉴于GAT 的上述优点,本文在开放式创新社区创意采纳预测研究中使用了图注意力网络中的注意力机制,实现了多源异构特征的融合,构建了图注意力网络,并基于该网络实现了创意采纳的预测。图注意力网络作为图模型的一种,也存在顶点和边。在本文中,顶点和边的设定如下。
(1)顶点
顶点是开放式创新社区的用户,用户通过在社区中提交评论,形成了自身在社区中的活动行为。结合用户的个人身份信息、评论内容和与其他消费者间的互动,本文抽取了启发式评论者、启发式评论和系统性评论等特征,并对特征进行量化。因此,对用户来说,通过量化特征所形成的空间向量表征了用户节点的特征。
(2)边
本文依据余弦相似度计算了用户间发布评论的语义相似度。余弦相似度的计算公式为
其中,A和B表示两条用户评论;i表示基于分词、去停用词后评论中的第i个实词;n表示该评论中实词的总数。语义相似度高,表明创意内容类似,即用户对产品拥有相似的观点。但在数据量较大的情况下,依据语义相似度所有节点相连容易导致图数据结构偏大,影响后续分类预测性能。本文选择了与创意者相似度最高的前3 名用户进行连接,以方便后续操作。
2.3.2 基于图注意力网络的创意特征融合过程
GAT 是引入注意力机制的图神经网络,主要通过注意力机制实现开放式创新社区用户节点特征的提取与融合。基于图注意力网络的创意特征融合过程如下。
(1)图注意力层的输入与输出
(2)基于注意力机制的特征选择与提取
特征输入后,需要至少通过一次线性转换才可以得到所需的输出特征,所以需要对所有节点计算一个权重矩阵:W∈RF×F′。该权重表示输入特征F和输出特征F′之间的关系。此外,GAT 需要引用自注意力机制(self-attention),使用一个共享的注意力机制α,计算输入特征向量的注意力系数[32]。注意力系数的主要作用在于计算每个节点i的邻居节点k对它的重要性。注意力系数计算公式为
其中,i、j表示节点。公式(2)说明了节点j对i的重要性,而不需要考虑图结构的信息。
通过masked attention 将上述注意力机制引入图结构后,采用softmax 函数实现注意力系数归一化,即
图2 所示是基于注意力机制的特征选择与提取[33]。图2 左侧是两个用户节点之间注意力系数的计算过程,图2 右侧是根据邻近节点注意力系数计算节点特征的实例,不同的箭头样式和颜色表示独立的注意力计算,来自每个头部的聚合特征被连接或平均以获得通过这种方法,可以对每个节点进行自适应的特征选择,从而提升模型的表达能力和准确度。
图2 基于注意力机制的特征选择与提取[33](彩图请见https://qbxb.istic.ac.cn)
(3)基于注意力系数的特征输出
基于上述过程得到了正则化后用户节点的注意力系数,可以基于该系数获取节点的输出特征。输出特征预测公式为
其中,σ为非线性函数;j表示所有与i相邻的用户节点。通过公式(4)输出用户节点i的特征。
(4)基于多头注意力机制的稳定性保证
多头注意力机制的作用是使模型处理能力增强,训练过程更加平稳,每个节点到节点都有k个连接,每个连接都代表一个注意力系数[34]。
2.3.3 基于创意特征融合的创意采纳预测过程
基于创意特征融合的创意采纳预测过程实质上是一个基于GAT 分类的过程。在上文特征选择与融合基础上,创意采纳预测过程主要采用softmax 函数、交叉熵损失函数和梯度下降法实现。
(1)基于softmax 函数的分类
对节点向量输入实现特征融合后,使用GAT 将各个节点的邻居节点分别赋予不同的权重,最后图注意力机制将获取的不同权重的特征,通过自身的权重更新分配新的权重。权重较大的特征对分类更有影响力,权重较低的特征对网络分类结果影响较小。GAT 在分类中采用softmax 函数[33]
(2)训练与参数更新
得到预测分类结果后,基于已有的创意采纳预测标签,可以判断分类结果的准确性。对于结果的改进,GAT 采用交叉熵损失函数和梯度下降法更新参数矩阵。交叉熵损失函数的作用在于反映实际输出结果与预测结果的相似性,梯度下降法的作用在于递归性地逼近最小偏差,增加结果的准确性[35]。通过优化参数,减小预测结果的误差,保证创意采纳预测的准确。
2.4 基于多源异构在线评论数据融合的创意采纳预测效果评价
常用的机器学习分类算法有逻辑回归(logistic regression,LR)、决策树(decision tree,DT)、朴素贝叶斯(naive Bayes,NB)、支持向量机(sup‐port vector machine,SVM) 和随机森林(random forest,RF)[36]等。在机器学习中,特征是被观测对象的一个独立可观测的属性或者特点,如识别水果的种类,需要考虑的特征或属性包括大小、形状、颜色等,但一个特征不足以代表一个物体,所以机器学习中使用特征的组合即特征向量来进行表示。特征向量是一个n维的数值向量,可以用来代表某个东西。已有的创意采纳研究通常采用机器学习分类算法,创意采纳本质上是一个二分类的思想,即创意的采纳或者不采纳。因此,本文将常用的机器学习分类算法作为基准模型,与图注意力网络进行对比。此外,机器学习也是一个依赖多特征的方式,这与本文的特征融合有相似思想,因此,本文通过图注意力网络与机器学习的创意采纳预测效果,来判断图注意力网络特征融合的效果。
2.4.1 基准模型
逻辑回归模型通常用于研究疾病流行率及其与预测变量的关系,是研究输出结果与潜在相关因素之间关联的标准方法。在机器学习中,决策树属于监督学习的一种,作为一个预测模型,其代表的是对象属性与对象值之间的一种映射关系。基于贝叶斯决策论的朴素贝叶斯是用已知类别的数据集训练模型,从而实现对未知类别数据的类别判断。支持向量机的原理概括来说就是在样本空间寻找最佳分类面即超平面,然后将训练样本分开。随机森林是一个包含多棵决策树的分类器,其基本思想是利用多棵树对样本进行训练并预测[37]。以上经典的机器学习分类算法是本文采用的基准模型。
在已有研究中,王婷婷[14]采用支持向量机和随机森林算法对创意采纳进行了预测,为企业筛选预测创意采纳提供了新的工具方法。为识别潜在的想法发布者,Lee 等[15]利用人工神经网络、决策树和贝叶斯网络等数据挖掘技术开发了新的分类模型。Daradkeh[38]使用逻辑回归模型对Tableau 社区数据进行了测试,结果表明虚拟众包社区对用户和想法的认可与想法采纳呈正相关。为验证本文方法的有效性,将LR、DT、NB、SVM 和RF 等在创意采纳等研究中使用过的模型作为本文的基准模型。此外,结合本文数据特征和实际需求调整了上述模型的参数,以保证模型在本文数据集上发挥出最佳性能。
2.4.2 评价指标
开放式创新社区创意采纳预测实质上是一个二分类任务。鉴于此,本文选择了经常用于分类任务的精确率(precision)、召回率(recall) 和F1 值3个指标来评估模型的性能。混淆矩阵如表1 所示,3 个指标的计算公式分别为
表1 混淆矩阵
其中,TP(true positive)表示实际为创意,并被正确预测为创意的样本数量;FN(false negative)表示实际为创意,而被预测为非创意的样本数量;FP(false positive)表示实际为非创意,而被预测为创意的样本数量。另外,TN(true negative)表示实际为非创意,并被正确预测为非创意的样本数量。精确率测量的是实际为创意并被正确预测为创意的样本数量(TP)在实际为创意并被正确预测为创意的样本数量与实际为非创意而被预测为创意的样本数量之和(TP 与FP 的和)中所占的比例。召回率衡量的是实际为创意并被正确预测为创意的样本数量(TP)在实际为创意并被正确预测为创意的样本数量与实际为创意而被预测为非创意的样本数量之和(TP 与FN 的和)中所占的比例。F1 值调和了精确率和召回率,是对模型预测创意采纳性能的整体评估。
3 实证研究
3.1 数据采集
本文选择小米MIUI 社区中的用户建议板块作为实证数据来源(图3)。理由如下:第一,据统计,MIUI 系统80%的修改意见是由社区用户贡献的[39],由此可见,小米社区是一个活跃度较高的开放式创新社区;第二,在研究设计中,基于本文提出的基于在线评论的开放式创新社区产品创意特征体系,小米社区用户建议板块数据分布基本能够满足研究需求;第三,基于文献调研,小米社区用户建议板块在关于开放式创新社区的研究中出现频率较高。因此,本文将社区用户在2022 年1 月1 日—2022 年11 月27 日提交的产品建议帖子、用户信息和与其他用户交互过程中产生的字段内容作为实证数据来源,数据爬取时间为2022 年11 月27 日,共爬取21888 条用户建议。
图3 小米MIUI社区用户建议板块
3.2 数据清洗及预处理
为保证数据来源质量,本文采用人工浏览方式进行数据清洗及预处理:①删除数据集中评论带无效链接数据591 条;②删除用户信息及评论信息存在缺失值数据468 条;③删除爬取过程中重复性数据197 条。经过上述操作后,最终得到20632 条数据作为实验数据。
3.3 基于在线评论的开放式创新社区产品创意特征体系构建
基于文献调研,本文在已有同类研究,如谣言识别、在线评论有用性识别相关研究的基础上,构建了基于在线评论的开放式创新社区产品创意特征体系,如表2 所示。图4 是基于LDA(latent Dirich‐let allocation)的创意文本主题一致性得分,K=18时,主题一致性得分最高,为0.4406,迭代次数为500。
表2 基于在线评论的开放式创新社区产品创意特征体系
图4 基于LDA的创意文本主题一致性得分
3.4 基于多源异构在线评论数据融合的创意采纳预测结果
3.4.1 实验设置
表3 所示是本文在运行模型过程中的相关实验设置。
表3 实验设置
3.4.2 参数设置
本文就GAT 模型的主要参数,如学习率、Dropout 和迭代次数等进行了分析。将采集的数据集按照8∶2 分为训练集和测试集,其中训练集用于学习图注意力网络中的相关参数,测试集用于验证分类预测算法的准确性。参考已有研究,本文采用了穷举调参的方式以获取模型的最佳实验性能,具体过程:保证其他模型参数不变,每次设定一组参数组合,改变其中一个参数带入模型,并得出相应的评价指标结果。重复上述操作,直至得出模型的最佳性能结果停止。例如,当Drop‐out 取值为0.6 时,模型的表现最好,随着Dropout的取值逐渐增加或递减,模型性能也随之降低。最终,通过表4 中的参数设置,模型得出了理想的结果。
表4 参数设置
3.4.3 预测结果
表5 显示了每个模型获得的分类预测结果。从精确率的角度来看,所有模型的性能都相对较好,精确率在0.93~0.96。但是,在召回率和F1 值方面,模型之间的创意采纳预测性能存在较大的差异。召回率衡量了模型正确预测创意采纳的能力,该值越高越好。由表5 可以看出,本文提出的GAT 模型的召回率最高,达到0.9813,这意味着其在创意采纳预测方面表现出较好的性能,也说明了图注意力机制在特征融合效果方面的优势。NB 模型的召回率仅为0.4983,表明该模型对创意采纳预测能力较差。作为精确率和召回率的调和平均值,F1 值可以衡量模型在正确预测创意采纳和错误预测创意采纳之间达到平衡的能力。本文提出的GAT 模型的F1值最高,达到了0.9721,这意味着该模型在正确预测创意采纳和错误预测创意采纳之间取得了较好的平衡。与之相比,NB 的F1 值仅为0.6359,表明该模型在正确预测创意采纳和错误预测创意采纳之间的平衡能力较差。
表5 基于多源异构在线评论数据融合的创意采纳预测结果
综上所述,不同模型在不同性能指标上表现各不相同,需要根据具体任务和实际数据选择最适合的模型。在融合多源异构在线评论的开放式创新社区创意采纳预测任务中,GAT 模型在多个指标上均表现较好,可能是最优选择。
4 讨 论
4.1 贡 献
(1)本文归纳了信任转移和价值共创视角下多源异构在线评论的定义。
多源异构数据融合是大数据时代研究的前沿,并取得了一些研究成果。在已有研究中,围绕同一主题或内容从不同渠道获取数据的多源异构数据融合概念与多源异构在线评论具有一定的区别。在多源异构数据融合研究中,在线评论仅作为其中的一种数据来源,严重限制了用户声音的表达。鉴于真实数据驱动下研究的需要和在线评论的重要价值,本文在多源异构数据融合理念的启发下,基于信任转移理论和价值共创理论,定义了多源异构在线评论。其中,多源包括特征来源多源和价值来源多源。异构则是在线评论中相关的文本、情感得分以及主题内容等用户内容的表达。通过这一概念,不断厘清在线评论的边界和结构,推动以用户生成内容中的在线评论研究的深化,引领电子商务、知识经济和商务智能的发展。
(2)本文实现了基于图模型的多源异构在线评论数据的特征级融合。
数据融合的方式包含数据级融合、特征级融合和决策级融合。其中,数据级融合包含的粒度更细、内容多样,但是受数据质量的限制,简单的物理融合容易引发不良后果。决策级融合需要每个层级的传感器都有一定的决策意识,这样做虽然数据量小,但是鲁棒性好。在互联网环境下,虚假信息、恐怖信息等广泛存在,且用户的“无意识言论”较多,初始决策的代价较高。基于特征的数据融合是从原始数据中提取特征,再对提取的特征进行融合。由于部分特征可能直接与决策相关,因此,本文提出了基于图模型的多源异构在线评论数据的特征级融合。在融合方法方面,机器学习与特征工程息息相关,但是存在精度不高等问题,图模型是适合大数据时代的一种数据挖掘方法,本文通过构建图注意力网络,基于图注意力机制实现了多源异构在线评论数据的特征级融合,并取得了良好的融合效果。
(3)本文提出了融合多源异构在线评论的开放式创新社区创意采纳预测。
开放式创新社区的发展,导致注册用户爆发式增长,引发了用户提交的建议评论的海量增长。这种增长导致企业难以在资源有限的情况下快速响应用户建议并筛选出高价值的用户创意,进而实现产品或服务的创新。因此,国内外学者纷纷对此展开研究,助力企业整合资源实现用户创意的识别预测。以往基于在线评论的开放式创新社区创意采纳预测研究仅依赖用户提交的评论文本特征,较少关注评论者个人属性以及社区用户直接的交流互动实现的价值共创。本文基于启发式系统性说服模型,整合了以往研究的成果,并提出了用户个人属性(创意者人口统计学特征、创意者行为特征)和创意者的价值共创特征(创意的支持、流行和关注)。通过启发式评论者、启发式评论和系统性评论的融合,实现了开放式创新社区创意采纳的预测研究,通过效果评估,本文基于图模型数据融合的创意采纳预测效果的综合性能超过97%,优于已有的机器学习分类算法。
(4)本文验证了图模型中的图注意力网络在分类场景中的应用优势。
以图论为基础的图模型,对在线产品评论进行文本挖掘与图学习分析,为探索在线产品评论理论研究提供一个新的研究视角,对电子商务运营商探究用户评论行为规律及探索潜在评论文本语义关联挖掘具有重要的实践意义。运用图学习方法提供数据挖掘与知识发现的新视角,为商务智能带来新的附加价值。在此背景下,本文提出了基于图模型的数据融合方法,并在融合基础上实现开放式创新社区的创意采纳预测。研究结果表明,与传统的机器学习分类算法相比,基于图模型数据融合的分类性能在创意采纳预测任务中取得了良好效果。
4.2 研究意义
本文的理论意义在于丰富并拓展了多源异构数据融合的研究体系,指导领域多源异构数据融合研究。基于启发式系统性说服模型,从信任转移和价值共创视角,设计了开放式创新社区用户创意的特征体系,归纳了在线评论多源异构的本质属性,深化了多源异构数据融合在电子商务领域的进一步应用。本文提出的多源异构的定义可以拓宽至社交媒体其他数据场景下分类预测,丰富了社交媒体环境下数据融合的理论框架,完善了多源真实数据驱动下的研究理论体系。
本文的实践意义在于完善并优化了开放式创新社区创意采纳预测的方法,可以帮助电子商务平台完善运营及管理模式;通过创意采纳预测的研究,解决了传统的创意识别效率低下以及社区平台信息过载等问题,可以使企业和社区平台更加集中精力加速创新,为争夺市场优势、占领市场地位打下坚实基础,也为后续识别社区中的领先用户和寻找激励用户持续知识贡献的因素提供了指导。
4.3 不足与展望
本文的研究结果具有一些贡献和意义,但也存在局限性。比如,本文收集了开放式创新社区的评论数据,并以社区中的采纳标签作为创意采纳的衡量,但被企业采纳的建议始终是少数,因此,数据存在不平衡情况。后续研究可以提出不平衡数据集上的基于图模型数据融合的分类方法,以解决数据存在的不平衡问题,不断提升研究结果的准确性,最终形成统一的基于多源异构在线评论数据融合的创意采纳预测方法体系。
5 结 论
在世界百年未有之大变局下,创新驱动不仅是技术创新,还要有制度创新与之配套。开放式创新理念是整合企业的内外资源实现创新的重要抓手。本文以开放式创新社区中的创意采纳预测为研究目标,针对现有研究依赖单纯的文本特征的局限,本文提出了多源异构在线评论数据融合的思路。针对多源异构真实数据存在的现实困扰,本文重新梳理了多源异构在线评论的内涵。针对现有的分类预测方法存在的细粒度不强、语义知识忽略的问题,本文提出了利用图模型中的图注意力网络特征融合的方式实现创意采纳预测,并取得了良好的效果。通过上述研究目标的实现,本文不仅证明了图模型在特征融合中的有效性,而且从融合评论特征和评论者特征的角度,为创意采纳预测做出了方法和理论上的贡献。