基于评论挖掘的网络购物多目标决策系统分析与设计*
2013-09-26胡正华
原 欢 胡正华 杨 召
(1.南京航空航天大学经济与管理学院 南京 211100;2.中国船舶重工集团公司第七一六研究所 连云港 222006)
·信息技术·
基于评论挖掘的网络购物多目标决策系统分析与设计*
原 欢1胡正华1杨 召2
(1.南京航空航天大学经济与管理学院 南京 211100;2.中国船舶重工集团公司第七一六研究所 连云港 222006)
为减轻网络购物消费者权衡各种指标和阅读评论所耗费的时间和精力,提供更理性的购物决策支持,以评论挖掘为核心算法,对多目标决策系统进行分析和设计。采用B/S架构,集成中文分词工具ICTCLA和词法分析工具HowNet所提供的JNI接口,实现基于评论挖掘的多目标决策系统。系统试用调查结果显示,被调查者中有83.75%的认为该系统的想法很新颖,85%推荐网购网站添加多目标决策值排序。
网络购物 评论挖掘 多目标决策 信息系统分析与设计
1 引言
根据中国互联网络信息中心(CNNIC)于2012年1月发布的第29次中国互联网络发展状况统计报告,截至2011年12月31日,中国网民规模已突破5亿人,互联网普及率较2010年提升了4个百分点。其中,网购用户数量达到6 465万,年增长率高达244.8%,可见中国网民的网购热情依然高涨。
当前,购物网站主要提供如销量、价格、信用度、上架时间等单一指标的商品排序,同时提供具体、详细的用户评论,这将耗费消费者大量的时间和精力进行各指标的综合对比,来确定最终购买对象。因此,本文拟构建基于评论挖掘的多目标决策系统,以多目标决策分析为内核,对购物网站的用户评论信息进行挖掘和分析,从而有效、便捷地支持消费者的理性购买决策。
2 评论挖掘
评论挖掘以购物网站上的产品评论作为挖掘对象,采用自然语言处理技术,从大量文本数据中发现用户对该产品各方面性能的评论[1]。评论挖掘主要包含四个子任务:产品特征抽取;评论观点抽取;评论观点的极性及强度的判断;评论挖掘结果的汇总以及按用户观点排序[2]。①产品特征抽取,即抽取用户评论中涉及的产品特征,主要包括产品的属性或功能、部件及其属性或功能等。②评论观点抽取,即抽取用户所评论的产品特征的观点。③ 评论观点的极性及强度的判断,即确定用户的评论观点的极性,包括褒义、贬义和中性,以及极性的强度。④评论挖掘结果的汇总以及按用户观点排序,即利用统计数据、图表等直观的形式对挖掘结果进行呈现,并可以根据用户的评论观点对产品或产品的特征进行排序。对于产品评论挖掘技术,国外较早实现了该技术的产品化。2003年,Nec公司的Kushal Dave等人研发了世界上第一个情感分析系统——Review seer系统,它可以实现对评论内容的情感倾向分析,从而为商品的受欢迎程度进行打分,体现出了巨大的商业价值[3]。2005年,微软美国研究院Gamon等人研发的“Pulse”系统实现对网上汽车评论的挖掘[4]。同年,IBM Almaden研究中心也开发了一款观点挖掘器——Web Fountain系统,主要应用于拍照和音乐评论两个领域[5];Liu B等人针对网络购物的产品评论研发了“Opinion Observer”挖掘系统[6]。
由于中文语言的复杂性,无法将英文评论挖掘的研究成果直接应用在中文领域,导致中文评论挖掘系统起步较晚,已开发的评论挖掘系统也较少。
具有代表性的中文评论挖掘系统主要有:姚天昉等人研发的针对中文汽车评论的意见挖掘系统,主要从细粒度上挖掘并概括用户对汽车的各种不同形成指标的观点[7];黄永文的评论挖掘展示系统,首先对评论进行分类和精简,删除其中与评论无关的内容,然后通过获取的特征观点词对与特征之间的层次关系,对相同特征的不同表示进行合并,对上下位的特征进行归类,最终统计各个特征所获得的观点,并以树状形式展现整个产品不同层次特征所获得的评论[8];严孙荣的产品评论意见挖掘系统,可以自动抓取指定的评论页面并抽出评论内容,从整体和细粒度两个层面实现产品评论的意见分析,最终提供可视化的统计界面[9]。
3 系统分析
3.1 需求分析和可行性分析
3.1.1 需求分析 当前热门购物网站(淘宝网、拍拍网、当当网、京东商城以及卓越网)的排序类别如表1所示。
表1 热门购物网站的排序类别汇总
各热门网站的排序类别都集中在单一的数字化指标,即使是“最专业的购物搜索”一淘网,也是在这几个指标的基础上进行多网联合比较。这就导致消费者需要耗费大量的时间和精力在指标之间进行权衡。
此外,产品的用户评论也逐渐成为消费者了解产品口碑、做出购物决策的重要参考之一。但是,网络评论数量的飞速增长,使其内容越来越庞杂,导致核心有用信息难以被获取[10]。
在此背景下,研究利用先进的信息技术挖掘用户评论中的产品特征及其情感倾向,并与多种单一的指标进行综合计算,实现多目标决策支持,满足消费者理性购物决策的需求,具有相当大的需求市场和现实意义。
3.1.2 可行性分析 产品评论挖掘已经成为学术界的一个热点问题,近年来受到学者们的广泛关注[11]。尤其是哈尔滨工业大学的叶强教授和李一军教授,他们从研究客户利润贡献度的评论到研究客户评论中的产品特征挖掘方法,进而研究计算客户评论中产品特征及情感倾向值的方法;此外,复旦大学吴立德教授、重庆大学何中市教授、大连理工大学林鸿飞教授等多位学者在产品评论挖掘领域的突出贡献,也为本文拟构建的基于评论挖掘的多目标决策系统提供了丰富的参考依据。
在系统开发方面,本系统拟采用B/S架构,相较之于C/S架构,B/S架构可以支持更多的用户访问量,为用户提供一致的UI界面;B/S架构还具有很强的开放性、系统集成性,且易于维护和扩展。在开发平台方面,B/S架构将采用JSP+Servlet技术进行开发。
因此本文拟研究的问题具有坚实的理论基础和成熟的技术支持。
3.2 系统功能分析
基于评论挖掘的多目标决策系统总体规划为三大功能,分别是商品查询、商品排序和商品数据管理,其用例图如图1。
图1 系统总体用例图
系统角色的总体规划是建立两类用户,分别为访问用户和系统管理员。各角色可执行的功能用例如图2和图3所示。
图2 访问用户角色视图
图3 系统管理员角色视图
在服务器端,该系统的理想运行环境是基于购物网站的底层产品数据库,但在本文研究期间无法实现与购物网站数据库的实时连接,因此需要在服务器端建立本地的产品数据库,其最基本的功能是要定期更新产品数据库,最核心的功能是产品评论挖掘。
4 系统设计
基于评论挖掘的多目标决策系统实际上是一种决策支持系统(DSS),它以数学模型为基础,对数据库中的大量数据进行分析、处理,给出决策层次上的辅助信息,为决策者提供决策服务[12]。因此,在该系统中,既需要数据库的支持,又需要模型库和方法库,更需要强有力的用户接口子系统(或称为人机交互手段),其结构如图4所示。
图4 基于评论挖掘的多目标决策系统结构
4.1 数据库子系统
数据库子系统主要存储产品信息和多目标决策参数值。笔者采用目前应用最广泛的关系型数据库,它是建立在关系模型基础上的数据库,可以清楚地描述现实中各种实体以及实体之间的各种联系。在具体的数据库工具选择上,选择MySQL小型关系型数据库管理系统。
实体关系(E-R)图是数据库逻辑设计的基本图形工具,主要包括实体、属性和联系三种组成部件。本系统规划的实体有商品分类目录、商品属性分类目录、商品基本信息、商品属性和多目标决策参数。各实体的属性图和实体之间关系的E-R图如图5-图10所示。
图5 商品分类目录实体属性图
图6 商品属性分类目录实体属性图
图7 商品基本信息实体属性图
图8 商品属性实体属性图
图9 多目标决策参数实体属性图
图10 实体之间关系E-R图
4.2 模型库子系统
模型库子系统,即多目标决策子系统,是基本或常用的数学模型的集合。在此系统中,多目标决策子系统一方面要对用户评论进行评论挖掘,得到能够反应用户对某产品的综合偏好值;另一方面还要建立以价格、销量和用户评论三者为多目标的综合计算数学模型,使用户可以根据该模型的结果值排序做出更理性的购物决策。
以某一产品为例,图11呈现了评论挖掘算法的具体流程。
其中,情感倾向值分为正面倾向值(=1)和负面倾向值(=0)。系统利用中科院的ICTCLA进行中文分词和词性标注,利用HowNet提供的语义相似度和语义相关场的计算功能进行词汇褒贬判别,其判断的准确率达到80%以上,具有一定的实用价值[13]。
图11 基于评论挖掘的多目标决策系统评论挖掘算法
以某一产品A为例,根据图11所示的算法进行评论挖掘,可以得到如表2的计算过程。
表2 以A产品为例评论挖掘结果
其中,wn表示从产品A的评论中挖掘出的第n个产品特征,awn1、awn2等分别表示修饰该特征的形容词,Own1表示与该形容词对应的语义倾向值;根据实验结果,我们选择0作为正面和负面语义倾向的分界值,即Own1>0,表示该形容词为正面;Own1<0,表示该形容词为负面。Pwn、Nwn表示语义倾向为正面、负面的形容词总数,Qwn为二者的和,Pwn与Qwn的比值乘以100(化为百分制的分数)为A产品第n个产品特征所对应的好评分Awn。
“产品的初始偏好值”的计算过程如公式(1)所示。
(1)
“产品的综合偏好值”的计算过程如公式(2)所示
(2)
其中,E指的是该从用户评论中挖掘得到的产品综合偏好值,J指的是该产品的用户评论均分,由于该均分一定在0到5之间,因此需要乘上20以换算成与Aw相同的数量级别。
此外,由于不同产品的价格及销量的变化浮动较大,且量纲不同。以手机为例,新产品如Iphone 4S手机价格为4 799元,而销量只有1 368,而诺基亚N1280手机价格仅为138元,而销量高达26 805。因此,需要将价格和销量数据进行归一化处理,其计算过程如算式(3)所示。
(3)
其中,X0代表价格或销量的原值,Xmax代表
某一类产品的价格或销量的最大值,Xmin代表某一类产品的价格或销量的最小值,而X就表示价格或销量归一化后的值。系统采用P表示归一化后的价格值,S表示归一化后的销量值。
最后,当用户提交了多目标决策各参数的权值,即价格、销量和用户评论三个参数的权值,系统将根据算式(4)计算最终的多目标决策值。
(4)
其中,wp代表价格权值,wq代表销量权值,we代表用户评论权值,且wp+wq+we=100%,D表示最终的多目标决策值。
5 基于评论挖掘的多目标决策系统举例
基于上述理论及决策模型,笔者主要采用Java和JSP语言编写系统处理逻辑和UI界面。由于产品类别丰富,本文以手机产品为例,展现基于评论挖掘的多目标决策系统界面。
图12为系统首页。当用户提交所选属性后,页面将默认按照价格由低到高排序呈现产品信息;同时,用户也可选择“按销量排序”,如图13所示。
此时,默认多目标决策值为空。当用户选择“按多目标决策值排序”时,页面将弹出如图14所示的提示框。
当用户提交设定的参数,系统会快速对入选产品进行多目标决策值的计算,并按由高到低的顺序呈现产品,如图15所示。
图12 产品属性筛选
图13 选择不同的单一指标排序
图14 多目标决策的参数权值设定
图15 按多目标决策值排序
6 总结与展望
为进一步检验该系统的实用性,笔者在本校校内随机邀请80位同学进行试用效果调查。调查结果显示83.75%的同学认为该系统的想法很新颖,85%的同学推荐购物网站添加“多目标决策值”排序。由此可见,本文提出的网络购物多目标决策思想具有实用价值。
未来,如果能够将此系统嵌入到实际运营的购物网站,就可以直接立足于购物网站的底层数据库,而无需定期更新本地数据库,这将大大减轻服务端的工作量,同时还能集成更多的单一指标,实现对网购用户更及时、更全面的多目标决策支持。
致谢感谢我的导师胡正华老师,从课题的研究、实验,到论文的完成,胡老师都给予了我极大的支持和帮助!感谢我的团队,王薇、李雨、倪磊磊、杨萍,与我共同合作完成该项目!感谢我的同学,于学勇、付昌昌,在系统开发过程中给予的帮助!
[1] 伍 星,何中市,黄永文. 产品评论挖掘研究综述[J]. 计算机工程与应用, 2008, 44(36): 37-40.
[2] PO PESCU A-M, ETZIONIO. Extracting product features and opinions from review[C]// Proceedings of the Conference on Human Language Technology and Empirical Methods in Natural Language Processing Stroudsburg, DA: Association for Computational Linguistics, 2005: 339-346.
[3] Dave K, Lawrenee S, Pennoek D. Mining the Peanut Gallery: Opinion Extraction and Semantic Classification of Product Reviews[C]//Proceedings of the 12th International Conference on World Wide Web. 2003: 519-528.
[4] Gamon M, Aue A, Corston-oliver S, et al. Pulse: Mining Customer Opinions from Free Text[C]//Proceedings of the 6th International Symposium on Intelligent Data Analysis. Lecture Notes in Computer Science, Madrid: Springer-Verlag, 2005: 121-132.
[5] Yi J, Niblack W. Sentiment Mining in Web Fountain[C]//Proceedings of the Second International Joint Conference on Natural Language Processing(2005). Computer Society, Tokyo, 2005: 1073-1083.
[6] Kim S M, Hovy E. Automatic detection of opinion bearing words and sentences[C] //Proceedings of the IJCNLP 2005. Morristown: ACL, 2005: 61-66.
[7] 姚天昉,程希文,徐飞玉,等. 文本意见挖掘综述[J]. 中文信息学报. 2008, 22(3): 71-79.
[8] 黄永文. 中文产品评论挖掘关键技术研究[D]. 重庆:重庆大学, 2009.
[9] 严孙荣. 中文产品评论的意见挖掘研究[D]. 北京:北京交通大学, 2010.
[10] 李 实,叶 强,李一军,等. 挖掘中文网络客户评论的产品特征及情感倾向[J]. 计算机应用研究, 2010, 27(8): 3016-3019.
[11] 郗亚辉,张 明,袁 方,等. 产品评论挖掘研究综述[J].山东大学学报(理学版),2011,46(15):16-23,38.
[12] 李志刚. 决策支持系统原理与应用[M]. 北京:高等教育出版社, 2005: 89-93.
[13] 朱嫣岚,闵 锦,周雅倩,等. 基于HowNet的词汇语义倾向计算[J]. 中文信息学报,2006,20(1):14-20.
(责任编校 田丽丽)
AnalysisandDesignoftheMulti-objectiveDecisionSystemBasedonReviewsMiningforOnlineShopping
Yuan Huan1, Hu Zhenghua1, Yang Zhao2
1. School of Economics and Management, Nanjing University of Aeronautics and Astronautics, Nanjing 211100, China; 2.The 716th Research Institute of China Shipbuilding Industry Corporation,Lianyungang 222006, China
In order to release consumers’ burden of balancing the variety indicators and reading reviews and help them make more rational shopping decisons, this paper analyses and designs a multi-objective decision system, with the core algorithm of reviews mining. The system is based on the B/S architecture, and integrates the JNI interfaces of ICTCLA and HowNet. A survey of the trial of this system shows that 83.75% of those investigated think that the idea is quite novel and 85% recommend installing this system into the shopping websites.
online shopping; reviews mining; multi-objective decision; analysis and design of the information system
TP181
* 本文系中央高校基本科研业务费专项资金资助项目(项目编号:09-35)的研究成果之一
原 欢,女,1988年生,硕士研究生,研究方向为管理信息系统、企业信息化、电子邮件数据处理等,发表论文1篇;胡正华,男,1965年生,博士,副教授,研究方向为管理信息系统、决策支持系统、物流与供应链管理、工业工程,发表论文34篇;杨 召,男,1987年生,硕士,研究方向为决策支持、物流管理等,发表论文1篇。