基于大数据和机器学习算法引擎的电商侵权监测系统
2022-01-22李嘉祺董祥旭李云霞
李嘉祺,董祥旭,李云霞
(1.浙江工业大学 理学院,杭州 310023;2.加拿大汉博理工学院 商业学院,多伦多 M2J 4A6;3.浙江财经大学 数据科学学院,杭州 310018)
在“互联网+”理念的推动下,人们的消费理念发生转变,网络购物变得越来越普遍,已成为社会一种不可或缺的消费方式.尤其随着5G 等技术的推进,移动互联网日趋普及,电子商务更呈现出高速发展的态势.
由于互联网的虚拟性和电子商务平台运营的特殊性,如何加强网络知识产权保护,有效遏制网络假货、仿冒以及其他知识产权侵权问题,成为人们必须面对的现实难题和全新挑战.
网络上的售假商家往往比较隐蔽,而且数据量大,企业难以从海量数据中获取售假信息,且具有一定的技术门槛,企业自身投入技术开发进行侵权行为监测取证不但存在难度,且成本很高.随着产品线上销售比重的增加和对电商渠道依存度的提升,企业打假需求非常旺盛.目前,业内成熟的知识产权保护商业模式主要是依赖传统的线下打假企业和法律事务所等机构,专注于线下打假,其耗时长、成本高且性价比很低.
大数据技术已广泛应用于各行各业.但在知识产权领域,大数据技术还是方兴未艾,并未形成大规模的应用与实施.随着知识产权保护的需求日趋迫切,创新服务模式及服务机构的快速崛起,如何利用大数据技术实现工作自动化,提升数据分析准确率和效率,甚至改变未来的行业格局,将是知识产权行业不可回避的问题.
本研究提出运用先进的云计算和大数据技术搭建电商渠道产品侵权行为监测分析系统平台.使用数据模型、算法、容器、模式识别、自然语言理解、分布式计算网络、分布式存储网络等工具来构建基于大数据的免开发网络公开信息采集系统,通过和专业知识产权存储机构与相关法律监管机构相合作,依托大数据平台和人工智能算法引擎建立对网络知识产权合理化、智能化分析的核心程序模型,从而在专利日益增多的当下,为需要侵权监控服务的用户及时地提供最有价值的情报,帮助用户避免知识产权风险.
1 系统总体架构
本研究中电商渠道产品侵权行为监测分析系统主要依托云计算和大数据技术,通过研发分布式全网数据抓取私有云服务,在线采集整合多渠道的数据;通过自然语言处理、统计和机器学习等方法,建立商品的唯一性识别方法和商品的特征提取方法,实现对电商平台(包括B2BB2CC2C)上销售产品侵权行为的挖掘和动态监测、分析.总体架构包括免开发大数据采集传输系统、数据实时监测分析平台以及核心算法引擎模型三部分.本系统的总体架构框图如图1 所示.
图1 支撑平台总体架构图Fig.1 Overall architecture diagram of supporting platform
2 网络大数据采集系统的规划设计和部署
网络大数据远程采集系统用于收集和存储发布于电商服务器上的商品信息和用户评语等数据,包括分布式大数据采集系统和远程云服务器两大部分.
2.1 分布式数据采集系统的功能设计
分布式数据采集系统是通过多台服务器同时运行Web 信息采集器组成[1].信息采集器由采集器、控制端和目标网址数据库三部分组成[2].采集所得数据交由远程云平台存储和处理,再融入深度学习、单词嵌入、共同表征等相关算法,实现对数据以自然语言为维度进行深度挖掘.
2.2 远程云服务器平台架构设计
远程服务器平台总体技术架构包括云计算物理层、云计算资源池、云计算存储层、云计算运算层和云计算控制层[3].平台架构示意图如图2所示.
图2 远程服务器平台架构图Fig.2 Architecture diagram of remote server platform
1)云计算物理层:搭载云平台的物理计算服务器,采用分布式计算设计,服务器部署于多个计算中心.2)云计算资源池:利用硬件虚拟化技术对物理层硬件进行虚拟化,将算力与存储进行集中化、程序化管理,方便上层资源调用与归还[4].3)云计算存储层:在分布式存储的基础上,实现系统采集所得数据的安全存储,同时为运算层提供数据的交互与共享.4)云计算运算层:采用分布式计算的设计,利用多个虚拟机同时调用存储层,对存有商品信息的网站进行数据分析处理.5)云计算控制层:提供用户交互界面,用于查看、控制和管理远程服务器支撑平台.
为确保云计算中心的数据安全性、运算效率和管理便利性,部署主要需要考虑资源池的虚拟化构建、存储与运算层的接口调用、分布式存储与运算的数据共享等[5].
为确保云服务器的稳定运行,减少服务器专业管理所需的开销,本研究使用阿里云应用云服务器搭建云计算底层平台.平台采用高端X86 高性能运算架构、专业可备份的I/O 存储方案和高带宽专线网络,可保证数据完整性和运算效率,并有利于数据的共享存储和管理[6].
3 数据实时监测分析平台的软件设计
3.1 平台软件的功能模块
数据实时监测分析软件基于算法引擎和大数据技术,将信息的深度学习、单词嵌入、共同表征等相关算法转换为程序,具体实现功能.
1)数据采集、挖掘.帮助客户采集和汇聚多领域多平台的商品属性数据及商品评论数据,该数据是进行后续分析的基础,也可以开放给客户进行查询和浏览.
2)侵权商品分析.基于本研究自主研发的大数据平台和相应侵权行为识别技术和方法,挖掘可能涉及侵权的网络商品和商家.
3)B/S 监控平台,初期主要针对品牌企业了解品牌自身在电子商务网站的售假及其他知识产权侵权情况,并可通过平台查看知识产权服务机构对售假店铺的处理进度,商品侵权行为的统计分析、地理分布等支持性数据.
4)知识产权维护.对可能存在侵权的商品,通过法律维权、投诉平台、正向引导等手段,直接为企业提供维权服务,消除侵权商品,打击售假商家,有效维护企业的知识产权不受侵害.
用户在台式机、智能手机、平板电脑等设备上登录账号后,各模块功能实现如下:
1)接受用户以自然语言输入的信息,在句模库的支持下判断该信息属于哪种陈述句式,根据特征词进行切分,去掉无效语气词,得到语句片段;
2)将语句片段传输至中心服务器,以自然语言为维度进行数据化存储并备份.
3.2 平台软件的流程设计
为方便用户对业务进行快速便捷查询,本平台程序包括网页端和移动端的用户交互程序以及运行于服务器的前后端算法程序.远程云服务器开发主要采用C/C++、Java 等语言将信息的深度学习、单词嵌入、共同表征等相关算法转换成计算机系统能够识别的程序指令,从而实现大数据采集系统远程云服务器的查询、搜索、更改信息等功能[7].手机等智能终端的程序设计主要包括句式判断、特征词切分和上传云端服务器,其主程序流程图如图3 所示.
图3 软件流程图Fig.3 Software flow chart
4 系统核心算法模型和数据验证
考虑本系统的实际应用需求,在系统软件设计中通过融入深度学习、单词嵌入、共同表征等相关算法,开发一种基于机器学习算法模型的大数据信息智能筛选方法,从产品名称、产品描述、品牌商标、展示图片等多个维度对比分析,并根据商品的用户评论提取特征值,跟客户提供的正常商品评论特征值进行比对,根据评论的情绪差异和评论特征相似性差异,判定商品存在侵权行为的可能性,实现对数据以自然语言处理(Natural Language Processing)为目标维度进行大数据化.
首先,针对特定主题进行数据预处理,利用分词处理完整文本,将其转化为由关键词组成的集合,建立关键词集合数据集并利用one-hot 编码方法对每一个语料进行编码,即可实现采集数据的数字化.随后利用三层贝叶斯概率模型潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)聚类对数据进行处理,确定其主题是否与侵权相关.LDA 主题聚类需要预先判定文本的主题类数,为确立最佳聚类数,本研究建立置信度指标用于判断预先设置的关于侵权描述的关键词是否被单独置于一类.得到最佳聚类数并进行聚类后,得到侵权主题语料的编码,再针对这些用户的文字评论计 算TF−IDF(Term Frequency-Inverse Document Frequency)特征值用于支持向量机(Support Vector Machine,SVM)分类器训练,从而对系统日后新增的语料进行快速分类,以判断该语料认为商品是否存在侵权[8].以TF−IDF 特征值作为SVM 分类器模型的输入变量,通过对原始的特征空间进行核函数映射,实现新建特征空间的线性可分.系统核心算法模型原理图如图4 所示.
图4 算法引擎模型原理图Fig.4 Algorithm engine model schematic diagram
核心技术引擎算法模型设计时:首先基于中文语义及大数据分析,建立商品的唯一性识别方法和商品的特征提取方法;其次建立疑似侵权商品的识别方法;再次依托人工智能算法引擎接口构建大数据分析和应用平台,结合基于B/S 架构的客户终端,用于抓取、分析和存储海量的商品数据[9];最后根据结果反馈信息,优化调整算法模型.
为验证模型的实用性,随机选取某大型电商网站数据中的5 类商品数据及评论内容作为训练集,总计4 531 条数据信息和70 266 个评论.首先进行LDA 主题聚类,发现当初始聚类数达到18 时,本研究初始设置的所有侵权关键词被同时认为是一个单独的主题.筛选该主题下的数据得到356 条数据信息和6 252 个评论.使用TF−IDF特征训练分类器模型,对70%的疑似侵权相关评论进行训练,然后将剩下数据作为测试集,利用训练好的超平面进行分类,发现准确率达到92.10%.最后将所有数据代入模型中进行分类,查找被误判为侵权主题的概率,结果显示分类器模型准确率达到94.52%,模型实用性较强.
5 结 语
本系统基于大数据建模和网络搜索引擎爬虫原理,研发分布式全网数据抓取私有云服务程序.通过整合多渠道的数据,利用国际上比较领先的大数据存储及处理技术,部署构建电商网络营销平台知识产权动态监测系统,利用自然语言处理、统计和机器学习等方法,为企业发掘电子商务市场上涉及侵权的各类商品;并根据结果反馈信息,及时优化调整算法模型,从而有效解决网络知识产权保护问题,维护企业的知识产权不受侵害.与市场上的相似产品系统比较,技术路线更为科学先进,对于海量线上商品,大数据分析的准确率高,可全面筛查,极大地缩小范围,用户体验效果和检索效率大大提升.系统可广泛应用于政府部门、企事业单位、社会团体甚至个人,具有较好的应用推广价值.同时,基于这一系统技术原理和大数据建模算法引擎,将来还可通过抓取和分析互联网上公开的电子商务信息和数据,为各类从事电子商务的客户提供全面的定制化的市场信息和数据分析,在大数据的建模和分析之下,从数据层面帮助他们做出正确的商务决策.