APP下载

关于大数据环境下的电子商务商品实体同一性识别的研究

2016-03-24于帅

中国新通信 2016年4期
关键词:识别电子商务大数据

于帅

【摘要】 经济与科技的发展带动了电子商务的发展,在电子商务平台中对数据的收集与分析是相关人员应当重视的关键性问题,不同的电子商务主体其拥有的数据是不同的,且具有相对独立自治,数据异构等特征,为了对商品信息进行识别与判定,应当设计相应的模型,提高对商品实体同一性的识别率。文中将对这一问题展开研究。

【关键词】 大数据 电子商务 商品实体 同一性 识别

信息化的发展是人们进入了大数据时代,商品交易对网络的依赖性与利用率迅猛提升,电子商务已经逐渐成为人们生活中不可分割的一部分。为了更好的在网络上开展生产经营活动,需要对大量的数据进行收集与分析,从众多的数据源中找到能够描述具有同一性的商品实体的网页,如何开展商品实体同一性识别是应当思考的重点问题。

一、电子商务在大数据环境中进行商品实体同一性识别面临的挑战

在大数据环境中,对同一性商品进行识别具有较大的难度。首先数据极为庞大,这一特点主要表现在三个方面,第一是数据量本身较多,我国现有的电子商务平台在100家以上,而商品数量则超过200万件,识别难度较大;第二是数据具有多样性,商品的描述方式、属性结构、数据模态、商品布局等均存在差异,因此很难在一个模型下进行选择与分析;第三是数据增长与更新速度快,商品的数量与价格、用户评价、交易记录等都会成倍的增长,因此数据筛选难度大。其次,商务平台中,商家与商品均较多、交杂,而不同商家对同一商品的定义与设计也存在或多或少的差异性,因此在进行关键词搜索时,两个相似度较高或相同的商品不一定会显示在同一个页面中,相似度相对较低的商品也可能因为某一关键词而出现在同一页面中。在对商品描述性语言进行分析时,传统方法很难准确判定两个描述的语义是否具有一致性,因此识别相对困难。

二、大数据环境下电子商务商品实体同一性识别的模型研究

1、对象数据模型。在数据背景下可用对象来描述数据特征,商务平台中商品数据通常以网页的形式呈现出来,网页可被称作为对象页面,每一商品对应的网页页面都含有独特的结构信息,由对象、对象页面以及页面信息所构成的模型极为对象数据模型。为了更准确的进行同一性识别,整个网站会被描述为非空树,由五个层次组成,其中根节点为网站数据源,中间节点为各级栏目,叶子节点为页面,用户在网站主最多只需点击四次就可以到达目标页面。

2、树模型。关系模式难以对电子商务中的复杂数据进行描述与定义,而树模型以值或者属性为基础,并与键值型进行适当结合,可以满足多样性的需求。整个模型由数据单元关系以及键值型对应的数据单元两部分组成,对象数据则包括不同层次的元数据,元数据包括实体、父级对象、键名以及数据值,如商品实体OPPO手机,可分为N1、N3等多个型号即多个商品对象,各型号存在的不同的属性即为值。由于树模型不会对数据结构与数据内容进行识别与解析,它可适用于任何类型的数据,其扩展性极强。

3、索引设计。在找寻具有同一性的商品实体时,需要对每两个商品进行一次比较,这一过程是极为复杂与繁琐的,为了解决这一问题,可将商品对应的属性值构造进行倒排,从而形成新的索引表,完成对商品的查询。属性名称、取值、子树中满足要求的页面集合共同组成索引记录集合。当用户键入关键词后,模型会根据条件形成层次树,即建立树模型,然后索引设计模型再对符合条件的项目进行检查,如果节点中存在索引集合,那么记录中将会增加该页面,通过这种方式可以完成初步的聚类处理。

4、值与属性处理。电子商务平台中商家、商品都极多,而其商品可能会采取不同的形式表述,虽然其值或属性节点是等价的,由于表述不一,筛选起来十分困难,如苹果手机与iPhone这种表述等。若想准确找到具有同一性的商品就需要对商品的值或属性进行规范化的处理,在索引设计中采取倒排索引,设计人员应当将可以表示商品值与属性的点集进行分析,然后判定各值或属性所占的权重。如果某两件商品的某一属性完全等价,则可将其纳入到同一商品的集合中。

5、层次概率模型。对同一体进行识别的过程最终是在层次概率模型的基础上完成的,在实际的电子商务中几乎没有页面的相关描述是百分百一致的,因此同一性识别的依据只能是相似度,由于不同属性对商品识别产生的影响具有差异性,因此在识别与比较前需根据实际需求对各属性赋予不同的权值,然后就商品比较的需求设计由三个层次构成的概率树,最后以此对概率树种的属性进行筛选与比较,找出其中相似度较高的属性,找出具有同一性的商品。

结语:在电子商务活动中对商品实体进行同一性的识别是十分必要且重要的,信息时代数据量迅猛增长,为了准确、迅速的找到具有同一性的商品,设计人员应当建立有效的对象数据模型、树模型、索引、值与属性处理系统以及层次概率模型等,对数据进行合理的筛选与分析。

参 考 文 献

[1]胡亚慧,李石君,余伟,等.大数据环境下的电子商务商品实体同一性识别[J].计算机研究与发展,2015(08).

[2]刘显敏.XML数据实体同一性相关技术的研究[D].哈尔滨工业大学,2013.

猜你喜欢

识别电子商务大数据
辽宁大拇哥农业电子商务有限公司
电子商务法草案首审
基于大数据背景下的智慧城市建设研究
论犯罪危险人格的识别
2013年跨境电子商务那些事儿
电子商务:在对的时间做对的事