基于电商平台的大数据挖掘系统的设计与研究

2023-03-28索红升

互联网周刊 2023年6期

摘要：网络技术的更新与进步，为电子商务行业的可持续性发展提供了基础条件，尤其是在网络购物已经成为当下主流购物方式的背景下，电商平台交易量表現出急速增长的整体趋势，而过程中将会积累较多的用户评论数据，从中反映出较多的产品缺陷信息与用户对产品功能改进的切实需求。本文简述了基于云计算的大数据存储技术的主要内容，对电商平台大数据挖掘流程进行深入分析，阐述电商平台的大数据挖掘系统的设计算法（聚类算法），希望能够为同行业工作者提供一些帮助。

关键词：电商平台；大数据挖掘系统；设计算法

引言

电子商务在经济全球化发展背景下获得了越来越多人的关注，轻松便捷的商务模式正在潜移默化地改变着人们的生活习惯与购物方式。从电商平台的应用特点来看，改变了以往只能够通过询问获得商品性能与质量等相关信息的购物模式，并摆脱了时间与空间的限制，让用户获得了良好的购物体验。无论是商家还是平台均对具有价值的商品购买反馈信息有较为迫切的需求，这也是扩大用户群体并提升用户口碑的关键因素，因此针对评论数据采取深入挖掘模式具有极为重要的现实意义。

1. 基于云计算的大数据存储技术

1.1 Hadoop框架

作为一类具有分布式并行编程特点的开源框架，Hadoop真正实现了模型计算，并能够在MapReduce基础上适应计算机模型所处的分布式环境，执行大数据存储与处理任务，同时可根据需要连接上千台机器进行功能拓展，提供给使用者本地计算与相应数据存储的关键条件。MapReduce属于基于云计算的一类核心计算模式，该种编程模式实际上已经经过简化处理，在分布式运算技术的协助下可解决固定问题，并能够对问题进行自动分割[1]。程序员能够基于Hadoop编写相应的使用程序，从而保证海量数据的处理及时性。Hadoop同样能够为使用人员提供数据存储的固定地点，让其能够根据实际需要对计算节点中的分布式文件系统信息进行部署或储存，从而充分发挥分布式数据库的应用优势。在Hadoop与云计算等新技术的共同帮助下，即使是大规模数据也能够确保处理的及时性与完整性，并能够在所搭建的云计算框架中融入HDFS与HBase，基于所设计的云计算分布式与并行计算方案，实现预期的数据处理与存储的相关工作目标。

1.2 以云计算为基础的数据存储模型

基于海量数据的应用特点，能够联系云计算等相关技术构建海量的数据存储模型，其中包含各个存储节点与主服务器集群，配合使用HDFS与HBase即可实现针对所需求的数据资源的实时存储与需求控制[2]。HDFS与HBase在这一过程中所起到的主要作用，是将需求的数据在各个计算节点上部署和存储，并能够借助MapReduce与Hadoop框架实现对数据的实时调度与科学维护，从而避免出现系统阻塞或框架使用故障等不良现象[3]。而使用者同样能够在Hadoop框架下，通过对节点数据的直接存取达到预期的交互操作目的。

2. 电商平台大数据挖掘框架的构建

结合电商平台大数据挖掘的实际特点，所执行的数据挖掘任务的根本目的在于为所组织的电商活动提供更有价值的活动信息与相应的平台支持。由于保证了信息提供的准确性与响应的及时性，所以组建出基于电商平台的大数据挖掘框架，主要包含六个层级：

第一是数据来源层。该层次主要包括电商平台、移动终端、社交网络以及供应商；

第二是数据收集层。该层级主要包括针对数据进行全面收集、针对文件进行全面收集以及各类消息与事件的及时响应；

第三是数据组织层。该层级主要包括过滤实施分析与接收分析，其中过滤实施分析对应结构化数据，接收分析则对应半/非结构化数据。通过对数据的过滤转化与抽取注解实现关联分类，其中的数据映射又可分为三个对应节点，包括语言库、索引以及构建的工作模型等[4]；

第四是数据存储层。该层级主要包括企业级的数据库、数据仓库以及元数据管理等相关内容；

第五是数据分析层。数据分析需基于所提供的搜索引擎，在明确需要后进行普通或高级分析，用以构建相应的预测模型，可提供给用户可视化查询的相应条件[5]；

第六是数据应用层。该层级主要面对的是各类电商平台的实际应用软件/网页，并陆续开发出针对商家与个人用户的应用级数据软件。

3. 电商平台大数据挖掘流程

作为电商平台维持正常运营状态的重要基础，电商数据的重要性毋庸置疑。基于海量的电商数据能够关联其他的业务类型，从而对用户在平台所产生的一系列消费行为进行深入分析，基于数据挖掘技术能够进一步提升平台的自我竞争性，进而全面提高商业价值[6]。在大数据深入挖掘的背景下，平台同样能够进行主动与自我学习，并在人工智能算法与科学的机器学习方式帮助下，获取更多的学习数据，将过程中所学习到的所有内容自动储存到相应的知识库中，为后续的学习以及平台运营提供基础条件，奠定海量数据应用与挖掘分析的基础。

首先由电商网站对用户的数据进行收集，主要包括电商平台数据、移动终端数据以及社交网络数据；随后进入数据预处理环节。分为数据准备、数据转化以及数据抽取三部分。数据准备包括交易数据、观测数据以及互动数据，根据实际需要进行解析与重构[7]；数据转化则主要对结构化与非结构化数据进行处理，包括对数据进行过滤与映射；数据抽取主要为数据关联与数据融合；接着进入数据挖掘过程。需要对关联的规则进行分析，做好分类与相应的聚类分析处理后，即可构建相应的数据模型，为后续的挖掘数据全面应用奠定基础；最后是挖掘数据的正式应用。可根据客户的实际需要推荐计划展示页面，借助网页数据挖掘与相应的商品内容搜索，保证客户能够获得更为全面的平台服务。过程中一旦发现异常情况即可进行自动定位，并将异常数据上传至云端网络，由相应的工作人员进行快速处理。

过程中所收集的所有数据均需要进行预处理，具有简单化与独立性特点的数据在解析与重构后即可进行数据转换，并在数据过滤与科学抽取的条件下，解析出具有分析意义的相应数据，从而明确各个用户群体的实际数据特点，获取到具有更高价值的知识数据[8]。该过程为将知识数据的应用价值进一步体现，需要根据客户的行为习惯以及电商平台的学习特点，展开对专业知识的解释与数据的深入挖掘工作，并应根据实际需要选择使用合适的数据挖掘应用方法，从而将大数据应用优势予以全面发挥。

4. 基于MapReduce的聚类方法分析

4.1 聚类算法的分类

现阶段未能出现一类能够对多维数据及所呈现各类結构进行揭示的算法类型，一般使用聚类分析计算方法明确聚类模型、聚类密度以及对应的使用网格。

首先是划分方法。这种方法的应用原理简单来说就是聚类一堆散点，需要达到的聚类效果是同类点足够近或不同类点足够远，在过程最为常见的使用算法为K-means算法。此种算法的应用优势在于可针对大型数据集进行高效处理，无论是时间还是空间的复杂度均相对较低，但同样具有优先选择k点较为敏感的应用缺陷。

其次是基于层次的方法。这种方法一般包括层次聚类与分裂层次聚类，其核心原理在于各个点均作为底层聚类，并对聚类间的距离进行计算，合并相近聚类并在达到终止条件后结束[9]；分裂层次聚类以包含全部数据点的聚类为起点，并能够依据一定距离将子聚类进行分裂，且能够持续推进分裂进程，直至分裂为每个聚类只有一个对应的数据点后即可结束，此过程最为常见的代表算法为BIRCH算法。从实际的算法应用情况来看，不仅具有较好的可解释性，且聚类所产生的数据质量相对较高，但同样有着较高的时间复杂度，即使在进行后续的改进处理后仍无法降低。

4.2 在评论语句聚类前所使用的关键技术

从当下的大数据应用环境来看，由于数据量相对较为庞大，因此想要将运算效率进一步提升需要针对数据展开相应的分类与挖掘处理工作。一般需要联合使用MapReduce框架，这也是需要在电商平台中使用基于MapReduce语句聚类方法的主要原因。

获得相应的评论数据集后，即可展开相应的预处理工作，可获得经过精练简化处理的语句，用以将特征词全部提取出来，包括分词与过滤两种操作。随后即可对特征词权重数据进行计算，该过程一般选择使用TF-IDF计算方法，配合相似度计算方案即可在向量空间模型的帮助下，将获取到的相似度数据转化为相应的距离，最后即可展开相应的聚类操作[10]。通常使用K-means算法进行聚类，并在MapReduce框架下达到并行处理的相应目的。针对选取语句间的相似度方法，一般采取向量空间模型法，需要相关人员在对文本进行向量化处理后，基于所获得的向量夹角余弦值最终确定文本语句之间的相似度。

4.2.1 特征词的选取

在对文本向量化进行评价处理时，一般不将全部的词汇在向量中表示，以免浪费性能，只需要显示出能够将语句含义全部表达的词语即可，该部分分词也被称为特征词。

第一是分词。分词的操作简单来说就是将原本完整的语句划分为多个字或词，一般使用软件实现分词操作。若想要将分词准确度进一步提升，建议最大限度地将产品的属性词与相关领域的词汇予以保留，从而使得保留的词汇具有一定的语句意义，使得经过处理后的词汇仍然能够表达出相应的语句含义，这也是保证最终聚类效果的重要基础；

第二是去助词、介词及连词。此类词汇通常为虚词，并不具备实际意义，因此在将相应的语句去除后并不会影响语句的本身含义。此种方法可在将向量维度降低后仍能够保证语句的语义信息，起到了运算量简化的重要作用；

第三是去代词。虽然代词并非虚词，但代词自身并不具有相应的准确含义，主要用于对某个主语进行指代。因此在后续操作过程中，所使用的软件算法并不会将其放在相应的语境中获取到相应的指代含义，建议在对此语进行过滤时选择将其去除。

4.2.2 文本向量化表示

文本向量化简单来说就是针对文本中的特征词汇的句子向量的分量。在进行分词处理时需要基于所组建的过滤词库将不需要的部分完全去除，所获得的特征词集合则是构建相似度计算模型的重要基础。后续则需要对特征值在文本中所占据的权重进行计算，从而明确空间向量的相应数值，达到评论文本向量化的目的。

4.2.3 特征值权重

作为一种被经常应用的统计方法，TF-IDF被用于数据挖掘的加权过程，能够对一类文件中字词的重要程度进行评估。一般来说文件中字词的出现次数越多，则表示其重要性越高。TF为词频，简单来说就是在文档中所出现的语句频率，在计算时需要将特征词汇出现的次数除以文档的总字数。一般来说建议使用MapReduce框架，在Map阶段统计各个节点所存储的词句，并在后续的Reduce阶段完成对结果的汇总与计算。如此，不仅能够将运算速度进一步加快，也能够省略重复计算过程，缩短了权重的运算时间，将算法的整体执行效率全面提升。

结语

综上所述，电子商务平台在信息技术快速发展的背景下具备了强势崛起的基础条件，但需要注意的是互联网仍然存在着自身的局限性。对于顾客来说，只能通过商家的宣传了解产品的质量，在无法辨别产品实际使用效果的情况下可能会出现一定的经济损失。为此需选择使用针对海量评论数据的处理方案，将真正具有价值的信息进行充分挖掘，为客户提供商品选择关键引导条件，从而保证平台与商家的权益，这也是需要特别关注基于电商平台大数据挖掘系统设计流程的主要原因。

参考文献：

[1]宋文智，白洪林，官潼筑，等.基于数据挖掘的跨境电商RCEP国别用户画像研究[J].中国新通信，2021，23（19）：66-67.

[2]秦宇.基于人工智能的电商大数据分类与挖掘算法[J].电子技术与软件工程，2021（14）：146-147.

[3]郭燕萍.电商客户数据挖掘中的模糊运算聚类算法分析[J].现代电子技术，2021，44（13）：130-134.

[4]王治博.基于Hadoop的电商平台用户数据挖掘研究[D].北京：华北电力大学，2021.

[5]贾咪雪.基于差分进化粒子群算法的电商评论数据挖掘研究[D].上海：华中师范大学，2021.

[6]杨晨.基于数据挖掘技术的电商用户购买行为预测研究[D].南京：南京大学，2021.

[7]吴涛.基于数据挖掘的电商客户流失预测建模方法研究[J].安徽水利水电职业技术学院学报，2021，21（1）：37-40.

[8]张书月.数据挖掘技术在电商情感规律分析中的应用研究[J].电脑知识与技术，2021，17（5）：258-259.

[9]刘洪博.基于数据挖掘的电商网红带货向量影响因素分析与预测[D].北京：对外经济贸易大学，2020.

[10]钟磊.基于电商消费大数据的客户忠诚度预测方法研究[D].深圳：深圳大学，2020.

作者简介：索红升，硕士研究生，研究方向：软件工程。