人工计算模型与机器学习模型的情感捕捉效度比较研究
——以旅游评论数据为例
2021-11-26孟令坤保继刚赵创钿
○ 刘 逸 孟令坤 保继刚 赵创钿
引言
在当前信息化时代的新生活环境中,出现海量由用户生产的数据(UGC, User Generated Content),为探索、解析复杂多变的消费者行为和社会经济现象提供了新的内容和路径。得益于智能手机终端、互联网电商和社交媒体的普及,消费者在日常生活休闲娱乐消费过程中产生大量具备商业价值的分享数据,如点赞、签到、评分、点评、照片和体验性文字等数据。这些每日生产的海量商业数据大部分以非结构化或多源异构形式存在。如何采集、解析和利用这些数据是当前诸多学科关注的热点。
早在十余年前,管理信息系统领域已经开始研究这类数据的有用性和信度,特别是商业评论数据,并用于各种理论校验和分析预测。[1-4]李实等指出,挖掘在线商品评论的重点是情感分类,然而缺乏有效的办法来快速和准确地识别商品属性和消费者意见之间的关系;[2]利用语言规则来编制分析算法,可以获得较高的精度,但是需要大量手工工作,难以解决复杂的语义表达识别问题;[1]所以,倾向于使用机器学习的方法来识别产品特征所触发的消费者情感。[3]十余年之后,UGC的有用性已经得到了较为广泛的认可,诸多研究利用UGC来解释新现象和捕获新趋势。[5]正如Ma等学者所言,整合统计学、概率论等多学科知识的机器学习算法已成为研究的热潮,[6]例如Tourism Management和MIS Quarterly这两个顶级期刊上关于UGC的文章,多使用机器学习算法进行数据挖掘。[7-9]这类算法以“自动学习”而不用人工编制规则的优势成为解读海量、多源、异构数据的重要利器,在市场营销、接待业管理、信息管理等管理学领域[6,10,11]和地理科学、社会学和城市规划等其他领域[12,13]均得到积极的应用。
自然语言处理中的机器学习算法本质上是基于统计学或神经网络算法编制的数学程序模型,其优势是可以从学习语料中自动识别出分析对象中高频度出现的规律,由此对新处理的信息可以输出计算结果。从投入成本和工作效率上看,机器学习方法占绝对优势,一方面它只需要提供简单的标签数据进行训练,省去了建模的逻辑推演及复杂数据结构的清洗,可以快速得到计算结果;另一方面,随着学习语料的增加,这些模型的准确度可以不断提高,理论上可以接近极限。然而这一类算法存在算法“黑箱”弊端,即在得到结果之后,无法归因和推演所研究对象的机制。而这一点,正是传统的、基于自然语言逻辑处理的算法模型所具备的优势,由于这类模型往往采用人为定义的规则对数据进行处理,本文将其统称为“人工计算模型”。它的优势在于,可以根据分析者的需求和所处理文本的语法逻辑,设定分析规则和步骤,并且有针对性地根据分析内容展开深度解释,其缺点是需要对不同类型、不同语言的文本进行建模并展开校验。
本文认为,管理学科所涉及的研究问题在复杂性和不确定性方面尚未达到广大研究学者难以驾驭的程度。过分倚重机器学习模型不利于我们发现机制和解释现象,相对而言,传统的人工计算模型拥有不可替代的机制探索作用。那么机器学习对于强调逻辑和规则的人工计算模型是否有着绝对替代优势?我们是否应该把海量数据的趋势捕捉(如情感分类)问题交给机器学习模型,而放弃对其数据分析逻辑进行探究?
一、评论数据挖掘方法与问题
1.文本情感计算方法与存在问题
文本情感计算属于情感分析(Sentiment Analysis)研究,[14]是自然语言处理(Natural Language Processing,NLP)的一个研究领域,[15]主要是指分析信息背后隐含的情绪状态,从而判断或评估信息发布者的态度和意见,将定性的文本数据转换成定量的情感数据。文本情感计算的技术思路是通过文本挖掘技术和自然语言处理技术,将文本情感分为不同类别,从而达到判断情感倾向的目的。[16]当前研究仍然以情感倾向分类(Sentiment Classification)为主,即将情感分为正面、负面和中性三类。[6]
情感分析研究最早可追溯到20世纪70年代末到80年代初,到了21世纪初,研究者才开始关注文本隐含的情绪、情感,文本情感计算研究逐渐增多。Hu等首次将文本情感计算拓展到市场营销领域,[17]对产品的消费者评论应用文本挖掘技术,也因为情感计算可以有效帮助管理者获取消费者对产品和竞争产品的态度,文本情感计算研究逐渐从计算机科学领域扩展到管理科学领域。目前,越来越多的管理学领域研究者开始针对商品评论应用文本情感计算技术。
国外的相关研究发展历史较长,积累了丰富的研究成果,主要可以分为技术开发类研究与实证应用类研究两类。前者需要研究者具备大量的自然语言处理、数学和计算机科学的背景知识,目前主要有两个技术开发方向:基于统计或神经网络的机器学习模型和基于自然语言逻辑、需要人工设定语义规则的人工计算模型。实证类研究将情感计算作为一种定性数据(评论)定量化的工具,从而帮助探究商品评论的经济价值、[18]有用性,[19]或者与传统的理论相结合进一步分析,如消费者行为、[20]服务质量、意见领袖[11]等理论,实证类研究主要使用上述两类计算方法来进行评论的情感分类,因此选择准确且合适的情感计算方法对研究结论极其重要。
与国外相比,国内的相关研究尚处于起步阶段,所使用的数据集中于影评数据、[4]微博文本[21]和商品在线评论,[22]计算技术也可以分为机器学习模型和人工计算模型两类。研究领域主要围绕零售业和酒店业,对评论的经济价值、[4]在线口碑[22]和消费者满意度[23]等管理学问题进行了探索。值得强调的是,由于中文表达复杂、语义丰富、看重上下文语境,且形式上缺乏英文文本中的空格难以分词,使得英文的分类技术难以适用于中文,开展中文文本情感挖掘需要自行开发模型,难度大,因此中文文本情感计算技术进展相对缓慢。
2.文本情感分类中的机器学习模型和人工计算模型
基于机器学习的情感计算是指计算机根据文本数据情况抽取表达情感约束的特征。与人工计算模型一样,都遵循分类判别—情感计算的逻辑,只是在分类方法上采取了非人类自然语言逻辑,通过建立技术模型自行总结规则,根据特征计量进行分类。[24]通过帮助计算机提前学习内在规律性信息的文本数据被称为“训练语料”。从给予机器的训练语料是否带有人工标注或者标签角度来看,可以将机器学习分为有监督、半监督及无监督的机器学习。[25]从特征上进行对比,无监督机器学习虽然省去了大量人工标注的时间,但正确率普遍低于有监督的机器学习,[16]效果不佳,[26]因此在文本情感分类中一般采用有监督的机器学习。有监督的机器学习文本情感计算算法需要训练和测试两个阶段,包括构建语料库、特征表示与提取、性能评价等。[27]
当前基于机器学习的文本情感分类技术不断进步发展,较为主流的分类算法包括单一分类和集成分类两类。[27]使用这些传统机器学习算法的同时,研究人员还需设置相关规则或序列标注,克服模型判断中忽略不带情感色彩的情感词的缺点。因此尽管这些算法性能优越,仍然无法灵活地进行特征扩展,而可以主动学习特征的深度学习方法逐渐受到关注。[28-30]
深度学习作为多层的神经网络,可以模拟人脑复杂的层次化认知规律,充分借鉴人脑的多分层结构,模拟神经元的连接交互、逐层分析处理信息,赋予机器获得“抽象概念”的能力。[31]基于上述优势,深度学习在文本情感分类中被大量应用,王文凯等结合卷积神经网络(CNN)和长短期记忆神经网络(LSTM),构建了微博情感分析模型,添加句子结构特征加强深层语义学习。[32]尽管理论上深度学习的“自主学习”能力更强,但目前仍然属于亟待发展的新领域,捕捉深层语义信息方面的能力有所欠缺,[33]并且在实际应用中需要海量的语料和长时间训练,计算能力受限,普及率仍然无法赶上传统的机器学习模型。
人工计算模型的核心逻辑是通过匹配情感词典与文本中的词语,统计和分析文本中情感词的褒贬性,判断文本的情感倾向。因此,该类模型早期主要的研究方向集中在情感词典的开发和优化上,模型开发一般在上述词典的基础之上进行融合和扩展。[34]但仅考虑情感词典中的情感词对文本进行情感计算会导致上下文信息的缺失,从而影响文本情感判断。因此随着研究的深入,语义规则的开发逐渐得到重视,即利用语法、词语出现位置等规则对情感词进行加权,[35]其中刘逸等提出的旅游情感评估(TSE)模型考虑网络评论行为的特征,提出了“情感乘数”规则,消减人们在公共场所发表意见时的正面倾向,是一种创新性的规则。[36]总的来说,人工计算模型的质量取决于情感词典和语义规则的质量。
3.人机之争,孰优孰劣
传统研究多从假设规律开始,到收集数据和开展实证研究,而机器学习几乎不做任何预设,完全由计算机来判别规律是否存在,然后再进行总结归纳。从范式的角度来看,这个演变过程是革命性和颠覆性的。本文认为,除了叶强团队提出的准确率问题外,[1-3]机器学习算法存在着算法逻辑的“黑箱效应”,是不可回避的重大缺陷。[6]就文本情感计算而言,机器学习方法虽然能得到较高的情感倾向分类正确率,但只能通过测试结果选择是否相信模型,并强烈依赖于训练语料。如果更换研究主题,只能提供新的语料进行训练,无法提炼出一般性模型进行推广应用。而分类效果较好的有监督学习分类方法,即深度学习,需要付出很高的标注代价,并重复训练以达到较好的分类效果,模型更加复杂,抽取参数较多,模型的稳定性易受干扰。[16]相比之下,人工计算模型通过人为设定情感判定规则,一旦解决了语义识别问题并建立词库,即可快速大量地进行情感分析工作,并且可以根据实际情况随时调整词库和分析重点。[25]
尽管管理学在十余年前便认识到了机器学习算法的局限,也认为自然语言逻辑是较优做法,但是最终学者们还是选择效率优先,走向了以机器学习法为主导的道路。不过近年来,开始有学者尝试回归传统的人工方法,并开展了十分积极的校验。刘逸等从旅游活动的内容和游客表达的特征出发,基于专属词库、语法逻辑和情感乘数,提出了一个评估旅游目的地正负面情感的方法——TSE模型,并且初步证实其有效性。[36,37]目前,该模型已被应用于中澳游客情感意象对比和自然、人文旅游目的地的情感意象对比等多项研究中。[38-40]该方法从某种程度上对当下基于人工智能的机器学习法提出了新的挑战和应用场景,但是在模型建设方面不够规范,也尚未与基于机器学习的情感计算模型进行对比,在情感计算的准确度上孰优孰劣尚未可知,方法信度有待验证。
综上所述,本研究选择旅游评论数据,面向人工算法与机器学习算法两种范式,利用评论文本的情感捕捉效度问题开展比较研究。本研究发现,当前淘宝、京东等主流电商的商品评论和新浪微博等社交平台网络评论的真实性问题存疑。由于刷单刷积分、提高曝光率、恶性竞争等原因,诸多商家会采用深度诱导(甚至直接要求)的方式,让用户提供图文并茂的优质好评,①一些社交平台用户会购买僵尸账号来制造虚假评论。②这些现象已经引起学界关注,但目前尚未出现成熟的无效、虚假评论自动清洗工具,只能通过大量、耗时的人工清洗提升实验数据的真实性,而一项针对大众点评网虚假评论的研究发现,[41]人工识别虚假评论的准确率仅为53.1%-61.9%。[41]相比之下,在线旅游网站上的旅游目的地景点评论不直接面向景区等营利性主体,受商业利益驱动去控评的现象较少,较为朴实,噪音较小,真实性较高。同时旅游评论数据获取难度较低,完整性高,也与本研究选取的TSE模型开发环境相匹配,因此我们选择旅游目的地的景点评论作为实验数据。该数据作为一种基于旅游活动的综合性体验态度的情感表达,能够真实反映游客的情感态度,同时具备海量、实时、样本全覆盖等优点,是一种全新且良好的研究素材,其有效性已经在管理学和地理学中被初步证实。[36,42,43]本文聚焦对旅游评论的情感分类阶段,暂不探讨观点挖掘,属于情感分析问题,其本质是通过一定的算法对不同类型的情感分类并计算出各自的强度,进一步对文本的主观态度、情绪或观点进行语义定向或极性分析,从而快速提取长文本的情感倾向、观点和态度。[44]本研究的核心问题是判断对于人工计算规则而言,机器学习算法在海量数据的情感捕获中是否具有压倒性优势。
二、研究方法与设计
本文利用训练构建传统机器学习和深度学习模型,同时加入人工计算模型,对同一组校验数据分别进行情感分类,将与校验数据的相似性作为衡量模型情感评价效果的标准,由此判断三类模型的情感分类准确率。
基于全面和不重复的原则,本研究在传统机器学习模型中选择了四个经典且主流的分类模型:朴素贝叶斯、逻辑回归模型(Softmax)、随机森林和梯度提升决策树(GBDT)基本涵盖了传统机器学习的核心类别。在深度学习方面,监督式深度学习模型中的TextCNN(基于卷积神经网络的文本分类算法)和TextRNN(基于循环神经网络的文本分类算法)两个主流经典模型被选入。在人工计算模型中,考虑到模型分类效果和校验应用场景的针对性,本文选择刘逸等开发的TSE模型。[36]为完成本研究的测度,共需要准备三套数据:(1)训练机器学习6个模型所需的语料,简称“训练语料”;(2)用于给7个模型进行情感评价的旅游目的评论数据,简称“实验数据”;(3)用于校验7个模型评价准确度的问卷调查数据和人工判读数据,分别简称为“问卷校验数据”和“人工校验数据”。需要注意的是,人工校验数据是通过人工判读得到评论的情感得分,理论上是最为准确的数据。
1.训练语料说明
本研究训练数据来自游客发布在旅游或生活服务类网站上关于某旅游目的地的短评论,这类数据的优点是数据较为简洁、内容直接、长度适中、方便处理,同时具有清晰的时间、ID、评论对象和评分等属性。本次选取了8个在线网站:主打旅游社交分享的马蜂窝(Mafengwo)和猫途鹰(Tripadvisor中文版),提供在线旅行服务的携程(Ctrip)、百度旅游(Baidu Travel)、驴妈妈(Lvmama)、美团(Meituan)、途牛(Tuniu),以及旅游信息平台去哪儿(Qunar)。利用Python网络爬虫工具,采集上述网站中8个监测点(与校验数据一致,详见第二节“校验数据说明”)排名前20景点对应年份的评论数据,采集时间为2018年10月,保留28份实验点样本约60万条数据。
从上述60万条数据中抽取共20204条评论进行人工阅读,赋予正面、负面和中性三类情感倾向的标签(-1、0、1,分别代表负面、中性和正面情感倾向),注意挑选含有情感观点的评论。其中10204条评论用于训练机器学习6个模型,包括1842条中性评论、2870条负面评论及5492条正面评论,其余10000条作为“人工校验数据”。
评论及其标签构成“训练语料”,将其分为两部分:80%(8163条)作为“训练用语料”,创建传统机器学习和深度学习模型,其余20%做“测试用语料”,评估模型泛化效果。具体语料选择情况见表1。
表1 训练语料情况
2.校验数据说明
本研究的“问卷校验数据”来自联合国世界旅游组织开展的旅游与可持续发展监测活动问卷调查数据。2006年至今,联合国世界旅游组织每年在常熟、成都、黄山、焦作、阳朔、西双版纳、喀纳斯、洛阳、开封、张家界10个监测点开展旅游可持续发展监测活动,采用问卷调查的方式对旅游可持续发展指标进行测度。其中针对游客整体满意度,采取李克特5分量表的形式进行调查,1-5分对应“非常不满意”“不满意”“中立”“满意”和“非常满意”。该数据较为科学地反映了游客对于旅游产品、服务、资源特色的综合性感知和态度,作为参照数据较为客观,且具备一定的科学性。
由于问卷数据中部分年份和地点的满意度数据缺失,因此只保留了8个监测点(黄山、洛阳、成都、西双版纳、焦作、张家界、喀纳斯、阳朔)不同年份的满意度数据,共28个实验点。考虑到之后对比的统一性和可行性,将问卷中的满意度转化为正面感知比例,即选择3分以上的被调查游客占全部被调查游客的比例作为正面比例,3分为中性比例,低于3分为负面比例。
“人工校验数据”是指对应28个实验点,收集相关旅游目的地对应年份的旅游评论,从中抽取1万条进行人工阅读,赋予正面、负面和中性三类情感倾向标签,统计正面情感倾向标签的比例,作为人工校验数据。两类校验数据的分布状况见表2。
表2 校验数据正面评价比例情况
3.实验数据说明
本研究实验数据来自游客发布在旅游或生活服务类网站上关于28个实验点的短评论,考虑到监测活动中的问卷调查均在暑期开展(喀纳斯监测时间为10月份),而结合评论人工阅读情况和文献支持可知,季节气候、游客量等因素会严重影响游客对旅游目的地及景点的满意度,进而影响评论中的情感表达,结合游客评论的时间滞后性和评论数量的保证,因此本研究只选取了2014-2018年相应监测点中6-8月的评论数据(喀纳斯的评论数据时间选取9、10、11三个月),作为实验数据。获取评论数据后对数据进行了去重工作,删除了评论中的重复项,最终得到244974条旅游评论。让训练好的机器学习模型和TSE模型对上述评论进行情感倾向判断,统计各个模型的计算结果,即判断出的正面情感倾向评论数量占总体评论的比例,构成“实验数据”。
4.实验流程
整体实验流程如图1所示,主要分为两大步骤:首先进行机器学习的模型训练,并经过性能评估达到要求;然后利用训练好的机器学习模型和TSE模型,进行交叉校验,使用均方根误差度量不同模型对旅游评论的情感分类效果。
图1 实验流程
5.方法说明
(1)模型原理介绍
TSE模型的情感评价原理是基于语义逻辑和情感偏好纠正下的词频统计法,主要包含建立旅游情感专属词库、设定语义逻辑和选定情感乘数矫正评论正面倾向三部分内容,语义逻辑主要从程度副词、否定副词和转折连词三个方面进行设定。本研究在原TSE模型基础上,结合采集的实验数据进行修正:①更新旅游情感专属词库,删去了136个难以判断情感倾向或旅游情境中使用频率低的词语,增加正面情感词99个,负面情感词115个;②新增程度副词5个。模型的计算逻辑如下:
其中γ为文本情感得分,包括1(正面)、-1(负面)、0(中性)三种结果,gn为否定副词的数量,ga为转折连词的数量,gdp为正面词前的程度副词数量,gdn为负面词前的程度副词数量,P为正面词数量,N为负面词数量,e为情感乘数;其他模型的原理和准备方法如表3所示。
表3 不同模型原理及准备方法总结
(2)机器学习模型训练
本文中模型训练的实验环境安装Tensorflow(基于数据流编程的符号数学系统)模块和Gensim(开源的第三方Python工具包)完成文本向量化及机器学习算法训练的基础配置工作,使用Python编程语言。⑦
① 文本预处理。包括分词、去除停用词及特殊字符。中文分词(Chinese Word Segmentation)指将连续的汉字序列切分成单独的词,如“卖相不好看味道一般般”,进行分词后得到的词语列表为“卖相不好看味道一般般”。本次研究使用Jieba中文分词工具。⑧Jieba中文分词支持三种分词模式:精确模式、全模式和搜索引擎模式,这里采用默认模式即精确模式进行文本分析。Jieba中文分词支持增加自定义词典,以便包含专有名词和Jieba词库中没有的词,避免这些词被切分开,同时保证更高的正确率,考虑到旅游评论中包含很多专有性词语,在此添加了TSE模型中建立的旅游情感词库。停用词(Stop Words)指数量很大但很少单独表达文档相关程度信息的功能词,通常分为两类:应用广泛的词语与介词、连接词、数字等。去除这类词语可以节省储存空间和提高搜索效率。特殊字符包括单位符号、制表符等。
② 文本向量化。由于计算机无法识别自然语言,因此需要将预处理后的词语列表转换为数字列表,本文使用Word2vec算法⑨将大量词语映射为高维向量表,然后文本根据自身蕴含的词语构建文本向量矩阵。Word2vec算法共有两种模型:连续词袋模型(CBOW)和Skip-gram(相当于CBOW模型的镜像)。这里使用的是Gensim封装的Skip-gram模型,该模型输入特征词的词向量可以输出该词汇对应的上下文词向量,具备高效、准确等优点。[45]共输入212万条评论数据作为训练数据,综合考虑前人工作基础和运算效率,选择的向量维数为128维,窗口大小设定为5。
朴素贝叶斯模型在训练时未使用Word2vec算法进行词向量表示,原因在于朴素贝叶斯只需要计算词语概率,不需要学习语义特征。
③ 模型训练。中文文本分类模型训练的基本原理分为三层。输入层是文本向量,隐藏层对文本向量进行权重、偏置和函数激励的处理,输出层输出逻辑回归结果,判断输入文本是否属于同一类。传统机器学习模型和深度学习的差别在于深度学习含有多个隐藏层。经过参数优化过程,随机森林和GBDT模型均采用了200棵树,树的深度设定为5,深度学习方法中主要使用了神经网络,都是将多维数组数据的输入编码转换为低维度的向量。参考经典文献和前人工作基础,TextCNN卷积核数量设定为128,大小为3、4、5,边缘扩充的方式为Valid(不进行任何处理,只使用原始图像,不允许卷积核超出原始图像边界),采用了正则化防止过拟合,[46]TextRNN使用了LSTM的结构,隐藏层维数为200。[47]考虑到旅游评论文本的平均长度,两者的限制最大长度均为50个词语。为了便于理解和比较,TextCNN和TextRNN在全连接层都使用Softmax作为神经网络最后一层的分类器。
(3) 均方根误差度量
本研究采取均方根误差(RMSE)的方法对模型情感评价的效果进行校验,通过计算7个模型的实验数据和校验数据之间的均方根误差来观察数据组之间的相似性,均方根最小的模型即情感评价效果较优。均方根误差也称标准误差,是观测值和真值偏差的平方与观测次数n比值的平方根。在实际测量中,真值只能用最可信赖(最佳)值来代替,本文使用问卷校验数据和人工校验数据代替真值。均方根误差对一组数据中的特大或特小误差反应十分敏感,因此可以很好反映出测量的精密度,即数据之间的相似度。具体公式如下所示:
其中,n为观测次数,即实验点的数量(28);Xobs,i为观测值,即实验数据;Xmodel,i为真值,即问卷校验数据和人工校验数据。
三、实验结果
1.模型测试效果
将测试用语料的评论输入训练好的模型,得到每条评论数据的情感倾向(测试结果),与语料带有的情感标签(真实结果)进行对比。本研究选取常用的精确率(P)、召回率(R)和F1值(F1)三个指标评估所有机器学习模型的分类效果,F1为P和R的调和平均值,受极端值影响较小,可以兼顾模型分类的精确率和召回率,便于对模型训练效果进行比较。各个指标的计算方法如下:
其中,TP(True Positive)把正类预测为正类的数量,FP(False Positive)把负类预测为正类的数量,FN(False Negative)把正类预测为负类的数量。
表4 分类判别混淆矩阵
各类模型关于评估指标的结果如表5。可以看出,深度学习算法中的三个模型F1值较高,可以达到0.8,精确率和召回率接近,比较稳定。除朴素贝叶斯以外,其他模型的召回率较为接近,查全效果普遍较好。朴素贝叶斯中负面评论的精确率和召回率差别最大,而正面评论则差别相对较小,原因可能是贝叶斯法要求表达文本的主题词之间相互独立,而这种条件在实际文本中往往难以满足,因此效果上无法达到理论的最大值。所有模型的精确率都达到了75%左右,GBDT模型、TextCNN和TextRNN模型的精确率非常接近80%,查准率较高。简而言之,训练出的模型基本符合要求,可以投入下一步实验和校验使用。
表5 基于Word2vec特征的各种模型效果
2.情感分类对比效果
为了更好地对比实验数据与校验数据的偏离程度,以问卷校验数据作为基准数据,将其余8组数据与问卷校验数据进行对比,差距最大为1,最小为0,由此进行归一化处理,以实验点作为横坐标的点线图形式对比实验数据与校验数据的差异,具体如图2所示。
图2 各模型情感分类准确率对比
结合图2和表6可以看出,人工校验数据与0刻度线偏离程度最小,均方根误差为0.0829,部分实验点几乎不存在偏差,说明人工校验数据和问卷校验数据最为接近,两者作为校验数据是合理的。
表6 各模型实验与校验数据的均方根误差
总的来说,从图表的结果可以看出,Softmax在两次校验中均表现良好,均方根误差最小,TextCNN在与问卷校验数据的校验中表现良好,位列第二;但在与人工校验数据校验中表现相对不佳,同样随机森林模型表现也是如此。TSE模型在两次校验中都保持排名第三,且与前两名模型的均方根误差均小于0.001,模型效果差距较小,总体略逊于Softmax模型,而与随机森林和TextCNN模型的准确率相似,但具有较高的稳定性,优势明显。
朴素贝叶斯均方根误差最大且与其他模型差距较大,原因可能在于旅游评论中决定情感倾向的属性不是相互独立的,无法满足朴素贝叶斯的要求。此外,根据Ng等的研究,[48]朴素贝叶斯可以在小数据上面取得更好的效果,随着数据的增多、特征维度的增大,Softmax的效果更好。随机森林模型使用多个决策树,比起单一决策树的GBDT模型更优,实际结果也如此。TextRNN模型尽管为深度学习模型但表现不佳,原因可能是该模型在上下文的记忆关联上丢失信息,不够稳定。同为深度学习模型的TextCNN的情感评价不够稳定,原因可能是深度神经网络在人工特征工程建立及语义理解方面容易缺失信息,因此在测试集上表现较佳,但对于实验数据则无法应用训练得到的特征进行倾向判断。
四、结论与启示
本文通过旅游评论数据,对比基于情感词典与语义规则的TSE模型与6个基于机器学习的模型的效度,得到以下两个结论。第一,机器学习算法已经可以实现较高的捕捉精度,但整体并不能对人工计算模型形成压倒性优势。在旅游评论的实验场景下,尽管机器学习类模型Softmax表现较突出,位居第一,但是基于人工计算的TSE模型表现相对良好,准确率与TextCNN模型和随机森林模型一同位居第二,而且在稳定性上有明显优势。第二,人工计算模型是兼顾效率和稳定性的优质方法。在所有比较中TSE模型排名第二,且稳定性最佳,而深度学习算法在以旅游评论为代表的数据分析场景下的准确度仍然具有一定的不确定性。从整体模型测试结果来看,深度学习系列模型的F1值最大,模型较为稳定,体现其对于传统机器学习的优越性。但是部分深度学习类模型测试效果较好,实际校验效果较差。
对于管理信息系统领域而言,本文的主要贡献在于肯定了人工计算方法具有鲜明的科学价值,对推动信息管理研究和情感捕捉技术进程有着积极的作用。叶强团队[1-3]十余年前已经开启了文本情感捕捉研究,但因中文语义复杂性,在方法上存在较大的处理难度。随后学者们一直没有解决语义逻辑的处理问题,而在机器学习算法兴起之后,这个难题日渐被束之高阁,直到最近的研究,依然是倾向于采用机器学习法。[7,49-51]本文所做的尝试正是对此难题的积极突破,也是对机器学习热潮的一次批判性思考。虽然中文语法博大精深,但是TSE模型的尝试证实了编制语义规则来捕捉消费者情感分析是切实可行的,与机器学习算法相比并不逊色。这间接地体现了人工计算方法的优势,因为研究者可以根据研究需求灵活调整算法,也可以进一步构建旅游六要素(吃住行游购娱)的子模型。其核心工作量仅在于重新建立词库,而无需更改语义规则和情感程度副词规则。但如果采用机器学习模型则需要重新进行语料训练、校验等步骤,才能获得分析模型。这一点可以从本文对TSE模型词库的优化工作中得到印证。
相对于深度学习模型而言,较为传统的机器学习算法对于旅游评论这类短文本和白话语句情感捕捉,具有较高的效率。尽管深度学习模型(如TextRNN模型)近年来在诸多领域被广泛使用,但在本次校验中并未超越传统机器学习。这一点呼应了机器学习领域关于“奥卡姆剃刀定律”的观点及Wolpert等提出的“没有免费的午餐”定理,[52]即在机器学习领域没有完美的模型,复杂的技术未必能提供更好的效率。本文认为,对于评论文本这类较为直白的文本可能并不需要使用深度学习这类复杂的机器学习算法,对评论文本语义逻辑和情感词库的深入挖掘结合传统的机器学习算法可能是更加有效的研究路径。
本文使用多方法、两套数据开展交叉校验,未局限于传统研究中的精确率、召回率和F1值等校验指标,而是将文本情感分类效果直接与传统的问卷调查方法和人工阅读的情感分类相对比,为文本情感分类的模型测试提供一次有价值的尝试和新的思路。本文的启示在于提醒研究者不要一味追求新技术和智能化,而应该重视人工与机器学习方法结合使用,两者交融而不是二取其一。尽管人工计算模型未能成为最优模型,但当前机器学习算法的不确定性及不可逆推的属性会直接影响输出结果和置信度。因此,当我们无法得知决策的逻辑过程为何时,广泛使用这类方法并不利于管理学理论创新,需要在未来的研究中给予充分重视。
注释
① 新华网.打击电商“虚假评论”亟须技术创新行业共治.http://www.xinhuanet.com/2019-12/27/c_1125393478.htm。
② 中新网.揭微博僵尸粉买卖乱象:明码标价团队运营.http://www.chinanews.com/fz/2013/03-15/4647482.shtml。
③ 朴素贝叶斯假定特征间不存在相互依赖关系,然后根据训练集的先验概率和条件概率,计算待测样本类别的后验概率,计算速度快、容易实现,并且在大多数情况下效果较好。Softmax回归是Logistic回归的通用型,修改了Logistic回归的损失函数,可以适应多分类问题,是一种判别模型。
④ 基于Boosting算法,将所有决策树的每一个叶子节点当做新的特征,如果输入的样本落入某个叶子节点,该节点的取值为1,否则为0,这样可以构造一个特征向量,应用该模型可以发现多种区分性的特征及特征组合,省去人工寻找特征和特征组合的步骤。
⑤ Collobert等第一次将CNN模型引入自然语言处理领域,是深度学习最成功、应用最广泛的模型之一,[31]注重全局模糊感知。
⑥ RNN强调对邻近位置信息的重构,适用于自然语言处理的上下文关系,LSTM模型继承了RNN的优势,同时弥补了其由于梯度消失/爆炸无法处理长期依赖的不足。
⑦ 该模型训练工作由中山大学旅游学院刘逸和赵莹副教授的大数据研究团队提供支持。
⑧ 该工具调用较为方便,分词效果也表现良好,在文本分析中被广泛使用。
⑨ Word2vec算法在NNLM及Log-Bi-Linear模型基础上进行开发,由Mikolov等提出,是一种计算量较小的词向量表示方法,且可以在大规律语料上进行分布式训练,弥补传统方法“词汇鸿沟”和维数灾难的缺点,[34]优于传统的特征选择方法,目前有许多研究将Word2vec用于评论情感分类。