APP下载

大数据背景下数据分析服务的市场分析

2021-12-17金里对外经济贸易大学

环球市场 2021年33期
关键词:爬虫数据服务采集器

金里 对外经济贸易大学

我国近年来互联网、大数据技术从普及逐步走向纵深发展,推动了人工智能的覆盖率,大数据存储量逐年上升,同比增速保持40%左右,由于我国人口基数大,互联网覆盖率高,数据产生量居全球之首,且数据增幅高于全球平均水平,市场规模不断扩大。大数据技术在国际市场价值日益提升,数据分析服务应迎合市场需求和国家有关政策,对相关门户网站的数据信息进行收集,并根据个人数据以及小型数据的需求、服务反馈等,对二者的优缺点及发展趋势做分析。

一、电商服务现状分析

(一)淘宝

淘宝是我国电商领军网购平台之一,用户注册量和浏览量是电商网站之首,淘宝依靠自身的流量提供数据分析服务,但目前存在以下问题。首先,人工成本估算不准确,数据收益机制运作不成熟,商品没有统一参考价格,同品类服务价格差异较大,客户不能准确找到与自身需求相契合产品。其次,平台与客户之间缺乏基本信任,数据把控和使用流量无法控制。淘宝注册费用较低,商家所承担信用风险较低,很难保证个人权益。最后,电商销售存在刷单行为,对交易的评价真伪难以辨别,存在诱导消费风险。

(二)大型门户网站

首先,采用火车采集器可以对商品明确定价,适合数据处理不需要太深入的客群使用,客户可以根据自身的需求选择相应的版本,借助在线客服做服务指导。八爪鱼采集器操作便捷,市场应用广泛,采集教程图文并茂,更有视频指导,客户短时间内易于掌握。采集软件根据功能不同价位也有所区别,客户选择空间较大。其中包括电商采集、市场洞察、数据采集等,为不同客户需求量身打造针对性方案。再次,前嗅采集器定价较火车采集器和八爪鱼采集器定价更加详实,前嗅可以自主选择数据代采,还可以根据ForeSpider 采集引擎自行爬取数据,实现客户数据的情感分析和语义识别。最后,集搜客有专门的爬虫软件,可以自行抓取数据和内容分析。这些数据处理软件与凤凰网、中国电信等国内大型门户网站保持合作,提高行业影响力。

二、数据分析服务的商业需求

(一)淘宝:小型数据服务方

针对淘宝电商网站的有关图片、邮费、商品名、销量、发货地等字段采用爬虫技术做数据分析,并去除掉不符合主题的噪声数据,确保数据的有效性。

(二)门户网站:大型数据服务方

1.火车采集器

互联网应用最广泛的是火车采集器,其数据处理和分析能力较强,配置灵活,在数据采集领域性能较为突出,供客户选择的版本氛围物种,基础功能可免费试用,根据功能区分付费版本的付费金额也不尽相同,客户购买后可终身试用,赢得了众多企业和个人用户认可。

2.八爪鱼采集器

数据采集器是否受到客户认可,首先应考核其是否操作方法是否便捷。八爪鱼采集器使用者及时不懂网络爬虫技术,通过数据采集器轻松获取相应数据信息。目前八爪鱼采集器有免费和付费两种形式共七个版本,付费版本价格区间跨度较大,根据客户要求可有针对性制定节点,数据服务没有固定价格,应根据客户需求制定相应方案来确定价格。

3.前嗅智能大数据专家

前嗅是我国唯一具有自主知识产权的Web 服务器,可以实现数据采集、自然语言处理,制定和研究可视化报告等功能,服务起步价低廉,价格更加明确,划分较多功能板块,并根据客户需求衍生多种服务。

4.集搜客GooSeeker

集搜客是可以把互联网装进表格里的数据库软件,可以对网页实现抓取和内容分析,目前网络爬虫软件除了免费版本以外还有三个定制服务版本,根据功能不同,价格区间在49 元-20000 元之间。

每个门户网站服务方所辐射客群有所不同,功能需求存在本质区别。其中以数据采集为主打的软件有火车采集器和八爪鱼采集器,由于受众客群不同、功能不同,价格差别也有所区别,火车采集器价格相对更加低廉。前嗅智能大数据专家功能更加齐全,包括大数据衍生服务等。集搜客重点服务文本的处理和情感分析需求的客群,市场定位是网页抓取和内容分析。以上门户网站根据市场客户需求,逐步扩大自身技术优势,提高市场核心竞争力。

三、数据调查与分析的方法及过程

随着近年来爬虫技术的深入发展,针对当前小型数据和个人数据分析服务,对销量、价格、客户评分、大型电商网站服务质量、种类和价格等做深入分析。

(一)价格分析

通过爬虫软件获得的爬虫价格信息价位多样,单价金额较为随机,淘宝电商零售平台没有明确分析标准,存在一定差异。商品标价不是真实交易金额,交易价格存在一定弹性,经过供需双方交流后确定的。如果商品价格没有明确标准,客户在交易之前心理预期价格与实际价格不符,很难敲定实际交易价格,客户难以做出快速选择。

(二)月销数量

爬虫软件爬取付款信息进行分析(见图1),单项付款人数最多为757 人,单项付款人数最少为0 人,月销售量大于100 单的占爬虫获取付款信息的10%,通过分析付款信息无法判断交易人数,由于每个交易人数同时可以拍下数单,例如单价200 元商品,客户同时拍下3 单,实际付款为600 元。

图1 月销售数量占比

(三)高频次关联词

由图2 可见,爬虫软件爬取信息中,高频词汇有spss 出现61 次,可视化出现63 次,stata 出现31 次,爬虫出现32 次,python 出现28 次,统计出现20 次,其中统计分析工具包括spss、stata、python,其中可视化出现频次最高,表明客户趋于对可视化功能的需求,所处领域不同,对数据分析工具要求也有所区别。

图2 高频关联词出现次数

(四)发货地分析

由图3 可见,爬虫软件爬取发货地信息具体为,北京40 次,上海32 次,南京16次,深圳12 次,四大城市累计100 次,占比达到50%,表明上述四大城市数字发展领先国家其他城市。

图3 发货地分析

分析高频词出现次数、销量、发货地址等,其中小型数据服务方销量高低不一,没有明确定价标准,价格界限不清晰等,无法判断实际销量。其中从高频词出现次数的数据分析来看,其中可视化出现率最高,足以说明当前客户对可视化迫切需求;发货地点占比较高的多为北京、上海等一线城市,表明数据经济与地方经济关系成正向发展关系。

四、结论与建议

电商数据分析服务通过前沿的科学技术手段进行研判,获取了以淘宝电商为代表的小型数据分析服务,证实目前结构体系不完善,商品标题应添加关键词,商品详情界面缺乏相关服务的名称、价格、范围等,还需进一步与客服沟通才能全部掌握。其中大型门户网站的数据分析服务,其体系清晰明确,产品分类详实,定价标准,明确服务的范围,可以根据客户需求推出主打产品,满足不同客户体验需求。我国数据资源发展起步较晚,面对技术瓶颈没有能力转化为商品化和资产化,质量、定价、权属等界定和评估能力不够,无法形成有效流通。根据当前状况建议如下:首先,数据商品体系应不断走向商品化、资产化发展,并建立数据监督机构,过期和错误等没有实际应用价值数据摒弃,监督机构可以控制数据的可靠性和可用性。其次,小型数据分析服务应将所提供的服务价格和范围界限划定清晰,为客户提供更加便捷、高效的数据服务,明确自身基本框架。最后,完善数据收益机制和人工成本核算机制。针对当前淘宝和大型门户网站的数据服务价格参考,各品类之间价格差异较大,构建成熟的人工成本估算,可以避免客户认为价格高的就是好得心理,规避部分客户为了节约成本而购买到假的数据信息。

五、结束语

我国数据化发展速度加快,引领市场经济发展,数据经济已经覆盖众多领域。本文重点研究了数据电商服务框架、服务对象等,针对不同类型做出相应的策略,表明,不同定价的数据电商服务,在数据获取和定价上存在一定模糊因素,随着大数据技术的进一步开展,数据电商服务体系将逐步完善和成熟。

猜你喜欢

爬虫数据服务采集器
大数据时代高校图书馆数据服务的困境及优化路径
地理空间大数据服务自然资源调查监测的方向分析
利用网络爬虫技术验证房地产灰犀牛之说
带U型切口的非线性压电能量采集器的动力学仿真研究
基于数据中台的数据服务建设规范研究
COVID-19大便标本采集器的设计及应用
基于Python的网络爬虫和反爬虫技术研究
浅析黑龙江省区域自动站硬件升级过程
大数据背景下校园舆情的爬虫应用研究
数据服务依赖图模型及自动组合方法研究