基于Web 和专利统计分析的用户需求获取及预测方法研究
2020-08-17张凤伟曹国忠朱玉宁
张凤伟 ,曹国忠 ,刘 帅 ,朱玉宁
(1.河北工业大学,天津 300401;2.国家技术创新方法与实施工具工程技术研究中心,天津 300130)
1 引言
随着移动互联网、大数据、物联网的迅猛发展以及消费意识的增强,用户需求呈现时效性强、复杂多变的特点。能否全面、准确预测用户需求,从而得到产品创新设计的突破点,是产品研发成功的关键。消费者通过电子商务、社交网络等平台,发表对产品功能、性能等方面的真实感受,不仅是潜在消费者的重要信息资源,同时也为产品制造商带来新的机遇。挖掘客户表达观点获取用户需求,数据真实性高,对提高用户满意度和产品竞争力具有较高的研究价值[1-3]。
目前关于产品评论挖掘的研究主要是产品特征抽取和情感分析。文献[4]提出应用Apriori 关联规则挖掘算法从由名词和名词短语构成的文件中挖掘频繁项,并通过“冗余修剪”作为产品特征。但是中文结构与英文有所不同,英文的挖掘算法不能直接应用于中文文本的挖掘。对此,文献[5]研究了针对中文评论挖掘算法,实现中文产品特征的自动提取。在结合Web 产品数据挖掘用户需求方面,文献[6]提出了基于群体多粒度语义信息的顾客需求优先度确定方法,该方法主要是结合专家意见和市场竞争确定需求优先度,具有一定的主观性,数据源具有极大的局限性,导致需求信息获取不全面。文献[7]利用大数据分析、了解用户需求,提高分析用户需求的效率。文献[8]根据产品设计知识库提供的信息等数据,定性判定产品技术成熟度和市场生命周期阶段,以此做出产品相关于预测。文献[9]将特征选择技术应用于顾客需求识别和基本重要度确定研究,同时获取顾客需求的Kano 属性。采用加权算术平均法整合顾客需求基本重要度和调整后的竞争性重要度,确定顾客需求的最终重要度。虽然,基于Web 数据用户需求获取方法的研究已取得一定的成果,但仍存在以下几个方面的问题[3-11]:
(1)获取的用户需求依然存在不全面、模糊性、抽象性等问题,且对用户隐性需求预测方法不够完善。
(2)缺乏针对产品功能、外观等不同方面用户需求分类及权重的确定方法。
(3)根据马斯洛需求层次分析用户需求等级主观性较强,缺乏客观评价依据,且未能客观分析各需求层次贡献较大的用户需求。
针对上述问题,采用SAS 软件利用自然语言处理技术(NLP)以及数据挖掘技术,从Web 评论数据和专利知识挖两个方面,深入探究用用户需求获取和预测方法。该方法能有效解决用户需求获取和预测不全面,主观性强等问题,以期对产品创新设计的前期研究方面做出有意义的探索。
2 用户显性需求获取和分析以及需求权重确定
2.1 基于Web 评论数据获取用户显性需求
2.1.1 Web 评论数据采集
网络评论已成为用户表达观点的主要方式,消费者通过在线评论把产品的隐性知识转化为文字形式的显性知识。从中挖掘用户真实需求,有助于提高用户满意度,增强产品市场竞争力。
网络信息资源极为丰富,涵盖了各个领域,内容呈现方式多种多样,从中获取有效信息是挖掘用户需求的关键。因此,企业应整合、分析内部和外部资源,明确研究目标,确定出市场需求的目标产品,有针对性的进行信息检索,避免数据冗杂。根据目标产品,对比相关数据源如社交网络、购物平台等产品评论数据,分析其有效性,选择价值较高的数据源作为待研究的主要内容。
利用爬虫技术爬取目标数据源中用户评论数据,将初始数据以一定的格式保存到目标数据库中,完成基于Web 数据相关产品用户需求信息全面、有效的采集。利用产品评论特征提取技术,获取用户显性需求。该方法较之问卷调查、用户访谈等传统方法,具有信息丰富、时效性强、真实性高等特点,具有较高的研究价值。
2.1.2 基于特征提取技术获取关键用户显性需求
由于产品评论中包含大量与产品特征无关的词语,影响数据质量。因此,首先通过对产品评论文本结构的研究,在哈工大停用词表的基础上构建关于产品评论的网络停用词表,用于去除冗余特征。利用模块化、集成化的大型统计分析软件SAS,结合网络停用词表,利用算法从非结构化产品评论中获取洞察,挖掘用户需求,为新产品的设计提供灵感。然后,基于特征提取技术利用SAS 软件挖掘Web 评论数据,获取关键用户显性需求。具体过程为:
(1)文本分词。
采用自然语言处理技术(NLP)对数据库中评论数据进行分词,将结果以SAS 能够识别的文本格式(如编码为UTF-8 的TXT文本格式)保存。
(2)数据转换。
将分词后的评论语句进行变量转化,即将以句子为单位转换为以词或短语为单位。将分词后的评论语句进行变量转化,并去除数据集中“的”、“了”“赞赞”等词。对由于分词误分的词语,如“操控”误分为“操#控”,“爬坡能力”误分为“爬坡#能力”等,通过词语共现算法进行词语整合,避免关键用户需求遗失,提高用户需求获取的准确度。
(3)去停用词及产品特征显性化处理。
基于构建的网络停用词表以及词语共现算法得出产品特征关键词,同时进行词频统计并设置阈值去除低频产品特征,通过产品隐性特征的显性化处理得出产品特征集T1。
(4)产品特征集有效性判断。
判断用户显性需求集T1是否达到获取目标产品要求,如果不满足对初始数据进行重新选择,按照上述步骤重新获取目标产品特征集,直至获得满足目标产品需要的产品特征集T。
(5)用户显性需求转化。
通过产品特征与用户需求之间的映射关系,即通过需求的有效拆分和整合,如“回头率”其隐含对产品“外观”这一需求,需借助人工对隐性表达进行分析判断,使用户需求显性化。此外,有些并不是最优表述,如“轻便”一词,是“车身重量”和“车体尺寸”两个方面需求的简约表达,又如“电池耐用”,“备用电池”等,是对同一需求的不同表述。得出用户显性需求集,并对用户需求进行归约处理,得出最优化的用户需求集RC1。
基于特征提取技术获取关键用户显性需求的模型,如图1所示。
2.2 用户显性需求与马斯洛需求层次之间的潜在关系分析
为挖掘用户显性需求潜在有用知识和规则,增强对用户显性需求客观现实的认识。
首先,利用SAS/EM 模块中VARCLUS 过程,依据SEMMA方法,即数据抽样(S)、数据探索(E)、数据修正(M)、建模(M)、模型评估(A),通过工作流方式,连接所需节点,对需求集RC1进行变量聚类分析,增强对用户需求客观现实的认识。
然后,将马斯洛需求层次作为聚类结果的潜在变量,分析用户需求满足等级。由于其是通过人为划分,主观性较强。为了解决这一问题,依据聚类结果与马斯洛需求层次的对应关系,构建马斯洛需求层次SEM 路径图,依据测量模型公式(1),利用SAS 中CALIS 过程验证其合理性。
式中:Xi—用户显性需求组成的向量;fi—马斯洛需求层次向量;ei—Xi的测量误差向量;ei—Xi对 fi的因子载荷矩阵。
通过分析结果中拟合指数,如CFI、AGFI 等衡量模型的拟合程度。如果模型拟合度较差,对路径图进行调整后再进行分析,以达到理想效果。
图1 基于Web 评论数据用户显性需求获取模型Fig.1 User Explicit Requirement Acquisition Model Based on Web Review Data
2.3 需求权重确定
最后,根据标准因子载荷的相对大小确定用户需求权重,以此分析各级需求层次中贡献较大的用户需求。比如在社交需求层次中用户需求是“蓝牙音乐、充电方式、电池容量”等,如果“蓝牙音乐”的因子载荷相对于其他项较大,说明“蓝牙音乐”对“社交需求”的度量最好,在满足用户社交需求时,应重点考虑。根据上述分析结果构建用户显性需求等级表。以此分析用户显性需求客观性强,具有较大参考价值。
3 用户隐性需求预测及Kano 属性分类
3.1 基于专利知识单元挖掘用户隐性需求
专利是产品创新的重要知识资源,知识单元是专利信息内容的高度概括,准确提取专利知识单元并进行深入研究,对挖掘用户隐性需求具有重要意义。
首先,选择目标专利库,以用户需求等级表中的用户显性需求或相近表述为关键词检索相关专利,建立以专利数据集为目标文本的背景知识库,依据显性需求获取方法提取专利知识单元。
然后,由于其对用户需求的表述并不直接,因此针对专利知识单元,采用多阶段提取方法,结合用户显性需求等级表,分析用户需求进化趋势。即将专利技术转变为功能需求,功能需求转变为设计需求,设计需求转变为用户隐性需求,如图2 所示。
最后,通过需求归约处理,得出用户隐性需求集RC2。合并显性需求集RC1和隐性需求集RC2,得出用户需求集RC,即RC=RC1∪RC2。
图2 基于专利知识的用户需求提取的转变过程Fig.2 Transformation Process of User Requirement Extraction Based on Patent Knowledge
3.2 基于需求进化定律新需求预测模型
人的需求是由低级向高级逐步进化的,对于产品的需求也是由低级向高级逐步衍化的过程,依据马斯洛需求层次理论的这一特性,可衍生出新的需求进而指导产品设计。Petrov 定义了五条需求进化定律,给出了需求的进化以及产品创新的设计方向,所以根据需求进化方向把握用户需求的变化,预测用户新需求。依据上述理论以及对用户显性需求的的分析研究,提出一种基于马斯洛需求层次理论和需求进化定律相结合的需求预测模型,如图3 所示。例如,对于平衡车的结构设计而言,平衡车把手在马斯洛需求层次中属于生理需求,依据需求进化定律中需求进化动态化,即需求在时间、空间结构、条件等的变化趋势。我们可以得到以下假设,平衡车的扶手结构可以满足用户对多种行驶姿态的需求,扶手高度设计可以依据不同人群的身高、喜好等进行调解。
Kano 模型将用户需求分为基本需求、期望需求和兴奋需求。Kano 模型表明,用户对产品的期望不断变化,且会越来越高,因此企业在满足用户基本需求和期望需求的基础上尽可能满足用户的兴奋需求。为了使用户需求在产品功能、性能和外观方面的重要程度更加具体化,将中的用户需求依据Kano 属性从产品功能、性能以及外观三个方面对进行分类。最终形成用户需求任务书,供设计人员参考。
图3 基于马斯洛需求层次理论和需求进化定律的需求预测模型Fig.3 A Demand Prediction Model Based on Maslow’s Demand Level Theory and Demand Evolution Law
4 用户需求获取及预测模型
通过对上述关键技术内容研究,提出用户需求获取及预测模型,如图4 所示。
图4 用户需求获取及预测模型Fig.4 User Requirement Acquisition and Prediction Model
步骤如下:
(1)确定目标产品,对比各网络平台产品评论数据的有效性,选择目标数据源并采集评论数据。
(2)基于特征提取技术和网络停用词表,利用SAS 软件挖掘Web 评论数据,通过产品特征与用户需求之间的映射关系获取关键用户显性需求。
(3)对用户显性需求进行变量聚类分析,将聚类结果与马斯洛需求层次对应,应用结构方程模型(SEM)分析显性需求等级并计算显性需求权重。
(4)基于用户显性需求和专利知识挖掘用户隐性需求,通过显性需求和隐性需求归约处理,得出用户需求。
(5)依据Kano 属性从产品功能、性能以及外观三个方面对进行分类。根据需求进化定律预测需求进化方向,形成用户需求任务书。
5 应用实例
随着人们环保意识的加强,交通拥堵日趋加剧,智能平衡车因其操作方便、时尚、低碳环保等优点,成为城市代步的理想首选。
根据(1),通过市场调研、网络信息采集、产品分析等资源的整合,确定目标产品为:儿童用双轮智能平衡车。通过对比数据源选择京东网络购物平台作为主要数据源。
选择评论条数在1500 条之上的12 款产品,总共抓取评论46200 条,将其以.xls 格式保存在目标数据库中。采用中科院的中文分析系统NLPIR 进行文本分词,以编码为UTF-8 的TXT 格式保存在目标数据库中。根据步骤2 对数据进行分析,部分程序,如图5 所示。
图5 SAS 数据分析部分程序(部分)Fig.5 SAS Data Analysis Part Program(Part)
通过产品特征有效性判断得到T={安装方便,车身重,颠簸,外观风格,轮胎,失控,维修方便,颜色,马力,保护,行驶速度,电池耐用,感应灵敏,轮子,时速调解,上坡有力,车子样式,杂音,车型,电动强度,好学,耐磨损,提拿手柄,续航久,样子,噪声,播放音乐,车子沉,电力强,耗电,结实耐用,速度,简单易学,遥控器,行驶噪音,材料,车体尺寸,电量,黑色,容易控制,塑料,蓝牙音乐,易学,造型,材质,充电方式,抖动,车型小,强劲有力,音乐,震动,彩灯,反应灵敏,车体厚实,轻便,提速快,提速慢,样式,音量,质感,操控方便,外观大气,防冻,款式,操作简单,外观大小,防水,行驶里程,外观,做工,车灯漂亮,上档次,外壳结实,音质,炫,车轮,灯光漂亮,粉色,酷}。
通过需求转化及归约处理得出用户显性需求集RC1={蓝牙音乐,车身重量,故障维修,电池容量,充电方式,颜色,舒适度,便携性,显示屏,动力强度,简单易学,提拿手柄,操控性,智能性,车灯,材质,噪音,越障能力,防泥水,安全性,灵敏度,车体造型,车速,稳定性,质感,防盗装置}。根据(3),本例中变量源选择协方差,点击运行。可在结果中通过聚类图,如图6 所示。查看聚类情况,根据聚类结果整理出用户显性需求聚类表,其中X1表示显性需求,如表1 所示。由表1 可以得出处于生理需求等级的需求居多,主要原因是平衡车处于产品的成长期。从结果看出用户需求聚为五类,分析五类结果可分别归为马斯洛需求层次,构建需求层次结构方程模型路径。利用SAS 中CALIS 过程验证该路径图的合理性,CALIS 部分程序,如图7 所示。运行之后输出分析结果,其中 GFI 值是 0.9384,AGFI 值是0.9236,说明模型具有较好的拟合效果。决定系数R2是度量观测变量可靠性的指标,结果数据表明R2结果表明每个方程可靠性均较高。
图6 显性需求聚类图Fig.6 Dominant Demand Cluster Graph
表1 用户显性需求聚类表Tab.1 User Dominant Demand Clustering Table
图7 CALIS 过程程序(部分)Fig.7 CALIS Process Program(Part)
根据显性需求与需求层次之间的关系方程,可以判断马斯洛需求层次中用户需求权重,并构建显性需求等级,如表2 所示。
表2 用户显性需求等级表Tab.2 User Explicit Requirement Hierarchy
表3 产品设计用户需求任务书Tab.3 Product Design User Requirements Task Book
根据(4),以patsnap 为目标专利库,以表1 中用户需求为关键词进行专利检索。以“X22”为例,在patsnap 检索栏中输入“平衡车”,以“造型”“外观”等为筛选关键词,整理出重要专利1078条,将其保存在目标产品专利数据库中。通过提到的用户显性需求获取方法,得出外观知识单元为“越野型”,“卡通造型”,“休闲娱乐”等。以同样方法获取所需专利知识单元。并根据图2 结合需求等级表预测用户需求。合并用户显性需求和隐性需求,并进行归约处理,得出用户需求。根据(5),结合Kano 属性,对平衡车功能、性能和外观三个方面调整用户需求分类。分析需求进化趋势,依据需求进化定律给出需求进化方向。根据以上分析,最终确定用户需求,如表3 所示。
6 结语
用户需求预测是产品设计的首要环节也是最重要环节。Web评论数据和专利知识蕴含着丰富的用户需求信息,形式虽有不同,但同是产品创新设计重要的数据资源。基于Web 评论数据和专利知识统计分析的用户需求预测方法,具有能全面、及时的获取用户显性需求,又能从大量的专利知识信息中有效的挖掘用户隐性需求。同时该方法对用户需求等级的划分及需求权重的确定,客观性强,避免了人为、环境等因素的影响,消除了传统需求获取方法对用户需求获取不全面、不及时、不准确的弊端。双轮平衡车需求获取及预测实例表明,该方法有利于针对Web 评论数据和专利知识用户需求的有效提取和准确预测,具有较强的实用性和有效性。