电子商务数据采集方法研究
2017-11-13苗妍
苗妍
【摘要】近年来,我国电子商务经过长时间的探索发展,已逐渐进入中高速发展阶段,市场规模也不断扩大,网购人群、商品种类、金额、平台等快速增长,电子商务数据数量巨大、类型多样、来源广泛,如何采集我们需要的数据,成为我们面临的又一问题。本文主要通过将这一问题简化为“按数据类型进行采集”和“按数据需求采集”,并提出对应的采集方法,从而实现对电子商务数据采集方法的系统梳理,为相关研究者提供丰富的理论基础。
【关键词】电子商务 数据分类 数据采集方法
一、引言
数据采集也叫数据获取,是指在一个系统采集数据后将数据信息传输到另一个系统中,为后续系统数据分析做准备。电商大数据伴随消费者和企业的行为实时产生,广泛分布于电商平台、社交媒体、智能终端、企业内部系统和其它第三方服务平台上,其类型多种多样,既包含消费者交易信息、消费者基本信息、企业的产品信息与交易信息,也包括消费者评论信息、行为信息、社交信息和地理位置信息等。在大数据环境下,电商平台中的数据是公开、共享的,但数据间的各种信息传输和分析需要有一个采集整理的过程。
目前文献的研究主要集中于对“大数据采集方法”的研究,主要包括系统日志采集方法、网络数据采集方法、感知数据采集方法、网络数据爬取、舆情信息采集等方法。而没有对‘电子商务数据采集方法”的专门研究。本文的研究思路主要体现在三个方面:一是,针对繁杂的电子商务数据,提出“按数据类型进行采集”和“按数据需求采集”这一使人比较明晰的分析方式;二是,参考“数据采集”的各种方法,并与电子商务研究相结合,筛选出可以对电子商务数据进行采集的方法;三是,将前两点所提到的“采集分类”和“采集方法”一一对应。
二、电子商务数据
(一)基于电商平台的基础数据
电商平台是指为企业或个人提供网上交易洽谈的平台。企业、商家可充分利用电子商务平台提供的网络基础设施、支付平台、安全平台、管理平台等共享资源有效地、低成本地开展自己的商业活动。电商平台是电子商务数据产生的基本载体,主要包括商品数据、客户基本信息数据、交易数据、客户评价数据。
(1)商品数据。在进行电子商务活动之前,各企业、商家将商品的相关数据录入电商平台数据库中,进而在网页中呈现出来,一般地,商品数据在一定时期内是相对稳定的。商品数据主要包括商品分类、商品品牌、商品价格、商品规格、商品展示,主要有文字描述、具体数值、图片等数据格式。对商品数据的采集主要是获取不同类目、颜色、型号等对销售量和销售额的影响,以便调整运营策略、实施销售计划。
(2)客户数据。目前,各大电子商务平台的访问均需客户进行注册,其中不乏用户的隐私信息,如:用户联系电话、电子邮件和通讯地址等。同时通过线上交易、线下物流,可以获取更完整的客户数据,主要包括姓名、性别、年龄等内在属性数据,城市、教育程度、工作单位等外在属性数据,首次注册时间、VIP等级、消费频率、购物金额等业务属性数据。了解客户的过程,实际上是一个为用户打上不同标签并分群的过程,对这些数据的采集,有利于分析客户消费行为和消费倾向等特征。
(3)交易数据。当客户在电子商务平台上产生购买行为之后,其交易数据包括购买时间、购买商品、购买数量、支付金额、支付方式等。对交易数据的采集是促进通过数据分析评估客户价值,将潜在客户变为价值客户的重要环节。电子商务网络营销其最主要的目的是促进商品销售,因此按照客户对商品的购买情况,可对当前和这个商品相关的营销策略其实施效果进行评价,以便进行相关的调整。
(4)评价数据。21世纪经济研究院所做《2017年电商消费十大趋势》显示,80、90、00后的消费者更愿意在互联网上分享自己的真实购物体验,并且消费评价成为其产生购买行为的重要影响因素。这些评价数据主要以文本的形式体现,包含商品品质、客户服务、物流服务等方面的内容。对评价数据的采集是可以帮平台商家更好地跟消费者沟通,了解需求、完善产品、提高服务。
(二)基于电商专业网站的研究数据
随着电子商务的发展,国内电子商务研究性网站也随着增多,比较典型的有“中国电子商务研究中心…阿里研究院…艾瑞咨询”等。
中国电子商务研究中心以“电子商务”为研究对象,以推动和扩展电子商务研究为核心宗旨,以开放性和专业性为导向,致力于不断提升电子商务研究的质量与水准。其数据板块主要分为产业数据、企业数据、行业数据、互联网金融数据、地方数据五个方面,报告板块主要包括电子商务报告、移动电子商务报告、季度报告、年度报告、B2B报告、B2C报告、网络零售报告等多個层面。
其次,阿里研究院依托阿里巴巴集团海量数据,聚焦电子商务生态、产业升级、宏观经济等研究领域,共同推出阿里巴巴网购核心商品价格指数aSPI core、阿里巴巴全网网购价格指数aSPI、阿里巴巴电子商务发展指数aEDI、阿里巴巴消费者信心指数aCCI、阿里巴巴小企业活跃指数aBAI及面向公众媒体,结合开放的国家统计数据、区域经济数据、电子商务行业数据以及阿里集团数据。
艾瑞咨询专注于互联网相关领域的数据研究、数据调研、数据分析、互联网咨询数据等互联网研究及报告,电子商务是其研究领域的重要组成部分。其主要通过形象化的表格、图片,提炼出电子商务历年发展情况、阶段性发展情况及专项内容发展情况,为电子商务提供了丰富的数据信息。
(三)基于电商媒体的报道、评论数据
电商媒体是指对电子商务的动态进行实时报道、评论的介质平台。国内典型的电商媒体主要包括新闻和社交两大部分:新闻网站主要有腾讯网、新浪网、凤凰网、网易、搜狐网等,及电子商务专业新闻网站
亿邦动力网;社交网站主要包括微博、博客、百度贴吧等。
各大新闻网站对于各地区电子商务的发展合作动态有着准确、及时的把握,并使用专业性的语言发布在网络平台,对于国家电商政策、重大电商会议、论坛等宏观信息还原度高且及时,同时对于地方电子商务发展的微小事件也有相关提及,地域度和事件范围较广。亿邦动力网是国内权威电子商务新闻门户,围绕传统企业做电商、B2B、B2C、外贸电商、移动电商、电商服务、电商政策、电商资本等领域开展信息与研究服务,是获取电商发展动态数据必不可少的来源。endprint
社交网站中的电子商务数据主要体现在微博中的电子商务话题及用户评论数据,博客中电子商务政策解读、技术分析、事件讨论等文章性数据,贴吧中电子商务问题、话题的讨论数据等,这些数据多以文本形式呈现。
三、按数据类型进行数据采集的方法
电子商务数据集通常具有不同类别的属性,包括字符类属性和数值类属性。字符类属性通常是对键值的外部归类,如性别、所在地区名,信用等级等。数值类属性又可分为顺序属性,离散值属性和连续值属性,数值类属性是对变量的量化记录,其中顺序属性是对键值进行顺序排列,并用数字表示顺序,如喜爱程度、满意度等;离散值属性是不具有运算意义的离散值键值,如身份证号码、邮编等;而连续值属性是最为常见的数值类属性,如货币收入,或者统计的人数等。
目前互联网中的网页信息多是半结构化或结构化,绝大多数的互网页信息的编写或标记语言为超文本标记语言HTML,分析其组成结构可知它主要由HTML标签和穿插其中的普通文本信息组成。简而言之,电子商务数据主要可以归类为由文字、数值组成的文本类型数据,同时还包括图片、视频等媒体数据。因此,对电子商务数据的采集,可以参考文本数据和媒体数据的采集方法。如下图所示为不同类型电子商务数据可使用的采集方法:
(一)HTML网页文本、图片数据采集
获取网页是WEB采集最基本的操作。互联网是一个类似蜘蛛网一样的数据信息网络,包含有网页中的一些图片、视频、压缩文件、超链接等媒体文件。
Web采集的核心是网页爬虫,用以采集相关网址所包含的海量信息,并从中提取所需的网页信息资料。目前国内外对网络爬虫的研究主要分为三类:基于网站的信息采集、基于关键词的网站信息采集、增量式网站信息采集。
(1)传统网络爬虫。传统网络爬虫的原理是:通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其他链接地址,然后通过这些链接地址寻找下一个网页。这样一直循环下去,直到把这个网站所有的网页都抓取完为止。其一般工作流程如下:
传统的网络爬虫主要用于抓取新闻门户类、论坛类及传统博客类网站的数据,更擅长处理静态网页的数据。运用网络爬虫进行电商数据采集时,可以使用Python或java等语言实现。
(2)主题网络爬虫。Web结构越来越复杂,网页数量越来越多,传统爬虫对所有链接指向的网页不加选择地爬取,其越发不可能遍历整个Web上的所有网面。而主题爬虫有选择的爬行符合预定主题的网页,分析每个页面的链接,并通过相关性算法的计算预测链接指向的网页与主题的相关度、优先度高的链接先爬行,舍弃与主题无关的链接。
主题网络爬虫按照预先确定的主题,分析超链接和抓取的网页内容,获取下一个要爬行的URL,尽可能保证多爬行与主题相关的网页。它从一个初始的URL种子集出发,根据一定分析算法判定URL指向的页面及其上的链接的主题相关度,过滤掉相关度低的页面与链接,保留与主题相关的页面和新的链接,页面存入主题页面库,链接放入待采集URL队列中,再从待采集URL队列中根据设定的采集策略选择下一次要抓取的URL,重复以上过程,直到爬虫根据自己的策略达到某一条件停止爬行,这一过程中不断从当前页面抽取新链接放入URL队列中,所有抓取的页面被存贮在主题页面库中。其工作流程如下图所示:
(二)JSON或XML页面文本、图片数据采集
尽管可以通过网络爬虫的一些改进技术实现各类网络数据的采集,但网络爬虫获取的往往是整个页而数据,缺乏针对性。利用网站自身提供的API实现网络数据采集即调用网站API,可以很好地解决数据针对性的问题。
越来越多的社会化媒体网站推出了开放平台,提供了丰富的API,如Twitter、新浪微博、人人网、博客等。这些平台中包含了许多关于“电子商务”的话题和评论、图片等,它们允许用户申请平台数据的采集权限,并提供相应的API接口采集数据。
(1)开放认证协议。开放认证(OAuth)协议不需要提供用户名和密码来获取用户数据,它给第三方应用提供一个令牌,每一个令牌授权对应的特定网站(如社交网站),并且应用只能在令牌规定的时间范围内访问特定的资源。为了降低OAuth协议的复杂性,OAuth 2.0协议很快就被提出,OAuth 2.0更加关注客户端开发者的简易性,它为手机应用,桌面应用和Web应用提供专门的认证流程。目前各大社交网站诸如Faeebook,Twitter、新浪微博等都提供了0Auth 2.0认证支持。
在己获授权的情况下,第三方程序可通过这些API直接獲取网络数据。通过API获取的网络数据通常以JSON或XML的格式呈现,具有清晰的数据结构,非常便于通过程序直接进行数据抽取。其大致过程示意图如下所示:
(2)开源API的调用。开源API的调用方法步骤为:①创建HttpClient对象;②如果需要发送get请求,创建httpget对象,同样,post请求一样;③发送参数,可调用HttpGet、Httppost共同的setParams()方法来添加请求参数;HttpPost对象而言,也可调用setEntity()方法来设置请求参数;④调用Httpclient对象的execute()发送请求,执行该方法会返回一个Httpresponse⑤调用Httpresponse的getAllHeaders()、getHearders(strigname)等方法可获取服务器的响应头。调用getEntity()方法可获取HttpEntity对象,该对象包装了服务器的响应内容。
四、按数据需求进行数据采集的方法
数据需求是指为了达到或实现某种目的而需要进行的数据采集。本文主要从“用户购物推荐”,“电商网站流量获取两种数据需求进行采集方法的分析。endprint
(一)用户购物推荐
分析网购用户的行为,离不开电商数据的采集、获取。电子商务中应用协同过滤算法的情景就是如何根据用户行为数据预测出用户可能要购买哪些商品的过程。协同过滤算法根据用户已有的信息,推算出用户可能会含有或即将会含有的信息。协同过滤算法大致可分为两类,基于物品的与基于用户的。
(1)基于物品的协同过滤算法。基于物品的协同过滤算法的实现过程及主要环节说明。
①查找这个用户喜欢过的物品(即偏好的产品,并查出偏好值),以及还没有喜欢过的商品,前者是推荐运算的根据,后者作为一個产生推荐的一个集合。②查找这两个集合之间的关系,这是一对多的关系:一个没有偏好过的物品与该用户所有偏好过的物品间的关系,有一个值来衡量这个关系叫相似度Similarity。③得到这个一对多的关系后,就可以计算这个物品对于这个用户的推荐值了,图中similarity_i-x表示Item_i与Item_x之间的相似度,Item_x是该用户偏好过得,该用户对其偏好值记为value_x,相乘;Item_i与该用户偏好过的所有物品以此做以上运算后,得到的值取平均值便是Item_i的推荐值了。④对该用户没有偏好过的集合中的所有Item都计算了推荐值,这里就会得到一个list,按推荐值由大到小排序,返回前面的一个子集即可。
(2)基于用户的协同过滤算法。基于用户的协同过滤算法的实现过程及主要环节说明:
①查询与该用户相似的用户,包括关系数据源,以及相似用户与该用户的相似度。②查询关系数据源,得到相似用户即邻居偏好过的物品。③被推荐的Item集合是由该用户的所有邻居的偏好过的物品的并集,同时再去掉该用户自己偏好过的物品。④集合优化。⑤依次计算被推荐集合中Item_i的推荐值,计算的方式略有不同,Value_1_i·表示邻居1对Item_i的偏好值,乘以该用户与邻居1的相似度Similarityl~若某个邻居对Item_i偏好过,就重复上述运算,然后取平均值;得到Item_i的推荐值。
(二)电商网站运营状况
网站流量统计常用来衡量网站的整体效果,主要的统计指标如下表所示:
(1)监听网络数据包。数据包是网络传输中的基本单元,主要由发送端IP地址、传输数据和接收端IP地址组成,里而包含了发送端用户所有数据信息。通过监听网络数据包获取流量数据,需要在客户端和Web服务器之间加一个基于软件或者硬件的包嗅探器,才能对经过的所有数据包进行监听,从中提取出有用的信息,比如用户的IP地址、请求访问的URL资源以及浏览器类型等,接收到数据包的时间还可以作为用户访问的时间。
(2)分析服务器日志。当用户浏览网站时,便与远程计算机(即Web服务器)产生了Internet连接,服务器端通过TCP/IP协议请求向客户端传送文件。TCP/IP协议将文件数据打包分成分组,通过Internet网络传到用户的计算机。这些分组将在用户计算机中重组并显示在浏览器中。Web服务器定位和传递用户请求的文件,每一次请求后,服务器便在日志文件中记录信息交换结果。常用的Web服务器如IIS、Apache都具有一套完整灵活的日志系统,均能在服务器端自动生成日志文件,里而记录了里而记录了用户访问网站的各种数据,包括IP地址、访问时间、访问方式、请求内容等。
(3)添加页面标记。页面标记法指的是在需要被监测的网页源文件中插入一小段可执行的JavaScript程序代码,当该网页被下载到客户端的浏览器上时,这段JavaScript代码就会被执行,然后,它就会如实的将采集到的访客行为信息不间断的发给所对应的服务器。通过JavaScript来进行流量统计得到的用户IP基本是真实的用户访问IP。
五、总结
随着数据采集技术的不断发展,目前可使用的电商数据采集技术、采集工具及采集软件层出不穷,为电商数据的快速、准确、大量采集提供了有力支撑。而本文主要以数据采集的方法分析为核心,偏向于理论分析。在文章的第四章实际上还有电商舆情评论、消费者满意度等等数据需求需要进行数据采集,这些都可以使用第三章的网络爬虫方法实现,为避免重复,仅列举了两种数据需求。endprint