在线评论中产品属性提取研究现状——基于2006—2020年CNKI文献计量分析
2022-04-13王召义
江 楠,汪 琪,王召义
在线评论中产品属性提取研究现状——基于2006—2020年CNKI文献计量分析
江楠,汪琪,王召义
(安徽商贸职业技术学院 电子商务学院,安徽 芜湖 241002)
采用文献计量与可视化分析方法,对我国电子商务领域中在线评论的产品属性提取进行探索研究,总结知识结构,分析研究现状,为我国未来在线评论产品属性提取研究的发展提供参考依据。
属性提取;在线评论;计量分析
一、引言
随着电子商务的快速发展,大多数消费者都选择更加便捷的电商购物消费方式。消费者在购物前会查看卖家提供的商品属性信息,当卖家提供的商品属性信息吸引了消费者后,消费者在最终决定购买该商品前会查看历史消费者留下的商品评价。从评论中挖掘出备受关注的产品属性信息是更好地利用这些价值的一个行之有效的方法。[1]产品属性提取可以为潜在用户提供购买决策,可以帮助商家定位市场需求,同时还有助于商业价值的发现。[2]有关在线评论中产品属性提取的研究应运而生,并成为近几年电商领域的研究热点。
二、文献综述
国内外对于商品特征提取的研究主要有Hu和Liu发表的文章,文中提出首先利用关联规则挖掘提取数据以及使用修剪搜索来获得特征对象候选集合中的真实特征对象。[3]Liu等人提出应用于推荐系统的观点提取和产品特征提取的方法[4],使用形容词跟随在副词之后的关联规则挖掘观点对象,并且通过n-gram窗口围绕观点对象来提取产品特征对象。ZhijunYan,Meiming Xing等人提出了Page Rank算法进行商品特征提取[5],并对该算法进行适当的扩展和优化,取得了比较好的效果。李实等基于Hu等人的研究方法并结合中文评论的语言特点对方法进行了改进[6],提出适用于中文的商品特征提取方法。史伟等将TF-IDF公式与加权方法相结合[7],并将结果按TF-IDF的计算值进行降序排列以提取特征词。林钦和等人运用情感计算理论[8],挖掘商品评论信息中的商品特征及相应的情感褒贬态度,利用依存关系找到特征—极性词对以及程度副词和否定词,并提出了商品评论情感倾向程度的计算方式。刘鸿宇等基于评论词与商品特征的依存关系[9],结合点互信息、名词剪枝、结合频度的评论词的过滤方法提取商品特征。肖璐、陈果提出了利用词频过滤掉一些无用的特征的自动提取方法和用人工的手段删除描述产品特征较弱的词的人工提取相结合的方式提取特征词。[10]
虽然学界对于产品属性提取的研究时间较长,但对于产品属性提取尚未形成一定的理论体系。在此背景下,对产品属性提取研究进行文献计量研究,采用文献计量、词频分析以及数据可视化等方法对有关论文分别从数据整体描述、研究内容、关键词三个方面进行统计分析,有助于准确把握产品属性提取研究的发展路径、揭示产品属性提取研究的主要特点、展望产品属性提取研究的未来发展方向,对未来在线评论中商品属性提取的理论研究及实践应用具有一定的参考价值。
三、研究方法
(一)描述性统计分析
描述性分析是统计分析的第一个步骤,对调查所得的大量数据资料进行初步的整理和归纳,以找出这些资料的内在规律、集中趋势和分散趋势。主要借助各种数据所表示的统计量,如均数、百分比等,对数据进行单因素分析。本文对于统计得到的文献从研究论文的年度发文量、研究机构、基金支持等方面进行描述性统计分析。
(二)德尔菲法
研究内容可以反映相关领域研究的热点及趋势,往往不是单一的,而是经常与其他内容相结合,形成完整的体系。随着产品属性提取研究的不断深入,研究内容也在不断丰富,要想了解产品属性提取研究的热点及发展趋势,需对现有文献的主要研究内容进行分析研究。作者邀请学校及企业专家共5位,采用德尔菲法,背靠背地征询专家意见,分析产品属性提取研究的热点及发展趋势。
德尔菲法也称专家调查法,1946年由美国Olaf Helmer和T.Gordon发明。具体做法是选取研究课题领域内的专家组成专家小组,通过匿名的方式征求各专家的意见,经过专家多次的反馈和修正,最终使得专家的意见达成一致,汇总专家综合意见以对研究对象做出预测和评价。[11]在本文中的具体应用步骤如下:
步骤一:向所有专家提出分析产品属性提取领域研究的热点及发展趋势预测的问题,并附上有关问题的所有背景材料,同时请专家提出还需要什么材料,然后由专家做书面答复;
步骤二:各个专家根据收到的材料提出自己的预测意见并说明自己是怎样利用这些材料并提出预测结果的;
步骤三:将各位专家第一次判断意见汇总,列成图表进行对比,再分发给各位专家,让专家比较自己同他人的不同意见,修改自己的意见和判断;
步骤四:将所有专家的修改意见收集起来并进行汇总,将汇总结果再次分发给各位专家,以便做第二次修改。向专家进行反馈的时候,只给出各种意见,但并不说明发表各种意见的专家的具体姓名。重复进行这一过程直到每一个专家不再改变自己的意见为止;
步骤五:对专家的意见进行综合处理。
(三)关键词共现分析法
关键词是对文章研究内容及方法的概括凝练,对关键词的整理分析可以从总体上反映该研究领域的研究内容主要特点、相关研究内容之间的内在逻辑关系、研究主题发展变化规律及研究热点问题。[12]两个或更多个关键词在同一篇文献中同时出现时叫关键词的共现,对关键词的共现分析可以恰当描述某一学科领域内部组成关系及其结构,揭示学科的发展动态和发展趋势,还可以用于发现新的学科增长点和突破口。如果两个关键词同时与某关键词有较强的共现关系,则这两个关键词之间也可能存在某种关联,有可能产生学科上的创新。[13]
Citespace软件是美国德雷赛尔大学华人学者陈超美博士开发的用于计量和分析科学文献数的JAVA应用程序,可以通过一系列可视化图谱的绘制来形成对学科演化潜在动力机制的分析和学科发展前沿的探索。[14]通过Citespace软件对文献关键词进行分析,可以得出关键词共现网络。关键词共现网络中节点数就是关键词个数,边数就是关键词之间的连线数。只要关键词在同一篇文献中出现过,两者之间就会有一条连线。关键词大小代表的是关键词频次,频次越大,关键词越大。同时Citespace软件还可以生成时域和空间网络图,时域图可以更好地反映研究内容随时间的变化特点。本文选择Citespace软件对关键词进行共现分析。
四、数据分析
本文将从数据整体描述、研究内容、关键词三个方面对产品属性提取研究进行分析。
(一)描述性分析
中国知网(CNKI)是目前国内期刊资源最完备、更新速度最快的论文期刊数据库,文章以被中国知网(CNKI)收录的有关商品属性提取的论文为研究对象。专家学者对于“产品属性提取”字段有不同的字段表达,相近词主要包括“商品特征提取”,所以在中国知网(CNKI)设置“商品特征提取”并含“产品属性提取”为检索主题词,检索出初始文献152条,剔除无关论文18篇,获得有效论文134条。利用八爪鱼软件对文献进行清洗与挖掘,将研究论文的年度发文量、研究机构、基金支持等信息输入Excel进行简单的统计分析。
年度发文量可以反映专家学者对某一领域的研究和关注程度。如图1所示,关于产品属性提取的研究开始于2006年,2006年至2018年局部有减弱,整体呈上升趋势,2019年和2020年文献量有所下降。根据年度文献量可以将研究阶段分为三个阶段:第一阶段(2006-2010年)为起步阶段,该阶段为理论探索阶段,文献数量占总文献数量的7.46%,文献数量很少。第二阶段(2011-2016年)为发展阶段,该阶段研究不断深入,研究成果数量在快速增加,文献数量占总文献数量的37.3%,文献数量较多。第三阶段(2017-2020年)为稳定期,该阶段研究的范围不断扩大,文献成果呈现稳定高产特征,文献数量占总文献量的53.73%。近几年文献数量的稳定高产与消费者逐渐认识到在线商品评论中相关信息重要性有关。随着近几年在线商品评论数量的不断增加,其中蕴含的有用信息逐渐被商家、消费者以及平台所认识到,而对于在线评论中产品属性提取研究的重要性逐渐被专家学者们所重视,对于其相关研究也就更加深入全面。
图1 2006—2020年研究文献数量统计
机构发文量是判断该机构在相关领域研究深度的重要指标。通过对产品属性提取的134篇文献作者工作机构研究,排名前三的分别是电子科技大学、大连理工大学、北京邮电大学及天津大学(北京邮电大学与天津大学并列第三)。表1为研究机构具体发文数量(发表论文数大于或等于3),从表中可以看出发表论文数量大于或等于3的机构为12所,共计文献48篇,剩余86篇以发表量1或2篇的形式分散于其他机构,说明对于产品属性提取研究相对广泛。
表1 研究机构发文数量统计结果
文献基金支持状况可以直观反映相关部门对于该研究领域的重视程度。通过对产品属性提取的134篇文献基金支持状况进行分析,具体数据见表2(文献数量大于等于2篇),获得国家自然科学基金支持文献数量的最多,总计27篇,占比20.15%,在支持数量超过2篇的基金中也可以发现国家级基金还有另外3项,教育部基金1项,省级基金2项,说明国家层面和省部级层面对产品属性提取相关领域重视程度较高。
表2 文献基金支持统计结果
(二)研究内容分析结果
对134篇文献的研究内容进行统计整理,并采用德尔菲法进行分析。根据分析结果发现文献研究内容主要包括四大部分,一是理论基础研究,二是特征提取,三是情感分析,四是推荐系统,每一大部分研究内容中又包括小的研究内容,具体研究内容见表3。从表3中的统计数据可以看出,在商品属性提取研究中,对于理论基础的研究文献数量并不多,大多文献综述集中于研究方法的介绍。涉及特征提取的研究文献数量最多,其中,对于文本预处理以及特征词提取与过滤的研究文献数量最多,分别为65篇及37篇。对于情感分析的研究数量同样较多,特别是情感词典的构建与情感极性预测,均为19篇。对于推荐系统的研究文献数量较少,最多的部分仅为11篇。
从这些研究内容的分布频数来看,理论基础研究并不是该领域的研究重点,这与商品属性提取研究的性质有关。产品属性提取研究侧重于技术研究,更加注重研究的方式方法,所以理论基础研究相对较少。涉及特征提取的文献数量最多,这与特征提取是情感分析以及推荐系统两部分研究内容的必备条件有关。由于文本预处理以及特征词提取及过滤的方法较为复杂,所以对这两部分研究文献数量较多。近几年的特征提取研究往往与情感分析相结合,从而分析特征词的情感极性,并应用于特征价格研究、商家信誉维度构建及维护、用户推荐等方面,所以情感分析内容以及推荐系统的研究在近几年逐渐成为该领域的研究热点问题。从所涉及相关研究内容的文献数量来看,对于情感分析的研究相对推荐系统来说更加广泛与成熟。未来对于产品属性提取研究的重点应向推荐系统等实际应用方面转变。
表3 文献研究内容统计结果
(三)关键词分析结果
1.关键词统计分析
利用Citespace对134篇文献的关键词进行共现分析,得出关键词共现图谱(图2),其中,频次排名靠前的关键词为“特征提取”“情感分析”“商品评论”“在线评论”和“推荐系统”,可以看出特征提取、情感分析与推荐系统等应用型研究是该领域的研究热点,这与前文关于研究内容的分析结果不谋而合。通过关键词之间的线性连接发现“特征提取”“情感分析”这两个关键词与其他关键词之间的连接更为密切,是商品特征提取研究领域的基础。通过统计发现其中出现频次大于3的关键词如表4所示,从这些关键词中我们可以发现,多数关键词集中于研究方法的表述,表明对于产品属性提取的研究内容比较固定,但是研究方法具有多样性特点。
图2 关键词共现图谱
表4 关键词频次统计结果
2.关键词演化分析
关键词的演化能够反映该领域研究内容的演变过程、研究热点及研究重点,本文从关键词的历年分布情况、历年新增热门关键词两个方面进行分析研究。
首先是关键词的历年分布统计分析,从2006年至今共获得关键词491个,历年关键词具体数量见图3,从图3中可以发现,自2006年以来,关键词数量总体呈上升趋势,特别是从2015年开始关键词数量快速增长,说明对于产品属性提取的研究重视程度得到大幅度提升。
图3 历年关键词数量统计结果
新增关键词在一定程度上反映该研究领域新的研究主题出现,笔者利用citespace软件对关键词进行时区分析,得到关键词时区图谱(图4)。从关键词时区图谱中可以看出研究热点的变化情况,从最早的文本挖掘、情感分析为研究热点,到产品属性及特征提取,一直到近两年对于推荐系统以及目标检测的研究,反映了研究内容的不断深入和研究的应用性的不断加强。根据关键词时区分布,本文将关键词研究年份按关键词增长速度划分为2006—2014年、2015—2020年两个阶段(表5),根据表5可以看出2006—2014年出现频次排名靠前的关键词分别是商品评论、特征提取、文本分类、文本挖掘、语义理解和极性分析,从这些关键词可以看出,在2006—2014年对于产品属性提取研究的主题主要集中于对评论文本的特征提取及基础分析。2015-2020年出现频次排名靠前关键词分别为情感分析、特征提取、在线评论、推荐系统、卷积神经网络、商品评论、深度学习和主题模型等,从关键词分布可以看出,2015—2020年相较于2006—2014年,对于产品属性提取的研究不再局限于特征提取,而是增加了情感分析、推荐系统这一类将文本分析运用到实际中的研究,同时也增加了卷积神经网络、深度学习、主题模型这一类方法研究关键词,突出了现阶段研究方法的重要性,表明对于该领域的研究方法在不断更新完善。
图4 关键词时区图谱
表5 分阶段关键词统计分析
五、研究结果与不足
(一)研究结果
论文主要通过对中国知网中以产品属性提取为研究主题的134篇文献进行总体数据统计、研究内容、研究方法以及关键词四个方面进行研究分析,得出以下四个方面的结果:
第一,在总体研究趋势方面,通过统计分析得出,研究文献数量在逐年增加,文献基金支持状况中国家自然科学基金数遥遥领先,说明对产品属性提取领域的研究重视程度在不断提高。通过机构发文量研究发现,机构研究文献数量相对比较平均,大多数机构研究文献数量仅为1篇,说明研究机构分散,没有代表性机构,机构间合作性较差。在未来的研究工作中,机构应加强领域研究的系统性,充分发挥出研究机构的研究优势,强化研究机构之间的合作深度,使得该领域的研究范围扩大,研究深度加深。
第二,在研究内容方面,对于产品属性提取的研究内容主要包括特征提取、情感分析以及推荐系统这三部分应用型研究,理论基础研究薄弱,个别理论基础研究也仅限于研究方法理论,缺乏其他相关领域的结合,在未来的研究中产品属性提取可以结合经济学、市场营销和心理学等领域的相关理论来进行研究,这些理论能够为产品属性提取研究提供新的视角。
第三,在关键词分析方面,本文通过对历年关键词数量以及不同阶段关键词变化的研究清楚了解到产品属性提取领域的研究热点和研究趋势,同时探知到这个领域的未来潜在研究价值点所在。[15]随着大数据技术的不断发展,产品属性提取的研究主题也在不断更新,推荐系统,深度学习、记忆网络等都是目前的研究热点,未来与产品属性提取相关的应用研究如属性提取与价格、属性提取与消费者行为预测、属性提取与供应链管理等都将是未来研究的主题。
(二)不足
本文立足于中国知网(CNKI)进行文献收集,收集主题仅为“产品属性提取”“商品特征提取”,收集到的数据难免不足,而且笔者在统计作者数据时并未将重名作者进行处理,对研究的结果均具有一定的影响。在研究内容方面,仅对文献进行了描述性统计分析以及研究内容和关键词分析,研究的全面性不够,这些都是本文的不足之处,争取在以后的研究过程中慢慢改进。
[1]王浩.电子商务个性化信息推荐服务计量分析与发展对策研究[J].内蒙古科技与经济,2016(8):59-62.
[2]赵妍妍,秦兵,刘挺.文本情感分析综述[J].软件学报,2010(8):1834-1848.
[3]Hu,Liu.Mining and summarizing customer reviews[C].Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Seattle, Washington. USA, August.DBLP,2004:168-177.
[4]Liu Y, Pi D ,Cheng Q. Ensemble Kernel Method: SVM Classification Based on Game Theory[J].Journal of Systems Engineering and Electronics,2016(1):251-259.
[5]Yan Z J,Xing M M, Zhang D S.EXPRS:an extended pagerank method for product feature extraction from online consumer reviews[J].Information&management,2015(7):850-858.
[6]李实,叶强,李一军,等.中文网络客户评论的产品特征挖掘方法研究[J].管理科学学报,2009(2):3016-3019.
[7]史伟,洪伟,何绍义.基于微博的产品评论挖掘:情感分析的方法[J].情报学报,2014(12):1311-1321.
[8]林钦和.基于情感计算的商品评论分析系统[J].计算机应用于软件,2014(12):39-44.
[9]刘鸿宇,赵妍妍,秦兵,等.评价对象抽取及其倾向性分析[J].中文信息学报,2010(1):84-88.
[10]肖璐,陈果,刘继云.基于情感分析的企业产品级竞争对手识别研究——以用户评论为数据源[J].图书情报工作,2016(1):83-90+97.
[11]马志翠.X学院物流管理专业大学生就业能力评价与提升研究[D].石家庄:河北科技大学,2020.
[12]王枫云,韦梅.中国城市治理模式研究的文献计量分析——以2002-2019年CNKI中文文献为样本[J].城市治理,2020(3):61-69.
[13]张勤,徐绪松.定性定量结合的分析方法——共词分析法[J].技术经济,2010(6):20-24.
[14]候剑华,胡志刚.citespace软件应用研究的回顾与展望[J].信息计量学研究与应用,2013(4):99-103.
[15]李良强,杨锐,曹云忠,等.我国涉农电子商务研究回顾——基于CSSCI的文献计量分析[J].电子科技大学学报,2018(2):24-30.
Current Status of Research on Product Attribute Extraction Among Online Reviews——Based on the bibliometric analysis of CNKI from 2006 to 2020
Jiang Nan, Wang Qi, Wang Zhaoyi
Using bibliometrics and visual analysis methods, this paper explores the product attribute extraction of online reviews in the field of e-commerce in China. Based on the research, we can summarize the knowledge structure, analyze the research status, and provide a reference for the development of China’s future online review.
Attribute extraction; Online comments; Quantitative analysis
2021-09-23
安徽省高等学校自然科学研究项目(KJ2020A1075);安徽商贸职业技术学院科研项目(2020KZZ05);安徽商贸职业技术学院学科(专业)拔尖人才学术资助项目(Smbjrc202101 )
江楠(1992- ),女,安徽池州人,安徽商贸职业技术学院电子商务学院助教,硕士。
10.13685/j.cnki.abc. 000607
F724.6;F274
A
1671-9255(2022)01-0022-06