基于网络爬虫的社交类APP运营优化分析
——以微信为例
2020-01-01李家骜杨相群
李家骜,张 豪,杨相群
(南京工程学院,南京 211167)
随着中国经济的不断发展,依赖于移动互联网和移动终端供应商的移动社交类APP逐渐成为新的潮流。以“微信”为代表的APP革新了人们信息传递与,而新技术介入、大众需求变化,使社交类APP在其设计、开发、演变、升级等过程均呈现出差异化趋势。
1 移动社交APP
移动社交APP就是指安装在移动终端上,提供用户信息传递和交互等功能的应用统称[2]。初期的互联网行业中为用户提供交互交谈的服务,例如:BBS,新闻组等呈现为在线社区的形式。随着信息技术的快速发展,社交网络的载体逐渐从传统的电脑与WEB页面变成了智能手机APP,并已涉及和影响到了社会大众生产生活的方方面面。[1]
2 数据获取与分析
本文选用360应用软件市场作为案例,并基于request和BeautifulSoup以及re评论爬虫,分析、设计与实现,通过request爬取内容,运用BeautifulSoup解析爬取到得信息,运用正则表达式re读取我们想要得信息。
2.1 获取目标网站信息
首先了解到,该网站的评论是有AJAX异步加载的,无法获取评论的真实URL,所以需要分析真实的URL构成以及规律,从而对爬虫程序进行设计。在借助到浏览器可查看客服端和服务端之间可以通信的过程的帮助下,通过点击加载更多评论的按钮URL由两部分构成,并且只有页数和编号在变化,即需要设计2个变量来表示真实的URL。
基于这种方式,需要获取更多的评论就需要更多次的请求,于是通过URL改造成一个循环,让程序的每循环一次可以拿到下一页的URL。而在此处需要格外注意网站的反爬虫和网络安全保护机制,因此在程序设计时必须在每次爬取内容的时候设置一点点停顿的时间 time.sleep(random.random()),否则将会触发网站的安全保护系统甚至拒绝访问。
2.2 捕捉网站信息
在获取网站内容的过程中,首先需要借助Python中的request库,并设置请求头和代理。通过这种方式规避了网站的反爬虫机制。现在再利用request.get()方法获取网页内容,设置捕捉到的信息内容编码为utf-8。此时,我们已经初步的获取到所要的网页内容。
进一步的信息加工处理是通过BeautifulSoup工具来解析获得的网页内容,在解析前我们需要对获取内容进行初步筛选。调用f ind all函数获得所有div元素里面的内容,在拿到所有带有html格式的内容即评论信息之后,可以采用re正则表达式内容提取出来,并调用re.compile()方法得到我们最终想要的信息。
2.3 信息存储与分析
运用Scrapy框架里包含的Feed exports命令可以很方便地导出文件,保存爬取到的用户评论,再利用程序对数据进行筛选与清洗,提取具有用户体验性质的内容并借助词云分析工具得到了用户体验的关键词。
3 现状分析及优化改进
通过对软件商店中用户评价的关键字词进行分析后不难发现,多数用户的意见反馈集中在,微信的安装包体积较大,程序占用空间较大,以及媒体编辑功能较为单薄以及注册流程优化等问题。其中,对微信功能建设方面的意见中,图片编辑、夜间模式和聊天记录的诉求较多。这反映出了,目前微信极简化的产品定位,在信息爆炸的当前稍显落后,在用户间的信息传播和交流中,图片和视频等多媒体信息的传播比重正逐渐提高,用户对于多媒体的编辑处理功能要求提高。而在产品内容的用户评价,则集中在公众号的内容,腾讯会员特权两方面。
实验数据表明,在用户体验的五个维度中,社会体验的影响效应最大,即用户在社会联系中寻求社会的认可,实现自己与亲人朋友甚至陌生人的联系,达到自己的社交意愿,这正是移动社交软件的本质功能。[3]用户在使用社交软件时,倾向于稳定且高效地实现自身的社交意愿。这要求移动社交软件重视且具备社会体验建设,进而提升用户粘性,提升用户满意度。
产品界面的设计和产品服务方式的改进升级至关重要,人类是“视觉动物”,优美的产品界面设计能给用户带来视觉感官的冲击,色彩鲜明和风格简单的同时强调功能齐全。用户的需求是产品设计的出发点,捕捉用户的多样化需求,收集反馈信息反作用于产品,促使其提供的服务多样化发展。
打破现有的技术壁垒,开发和突破算法瓶颈能够进一步降低用户学习成本和使用门槛。通过大数据算法的加持,能够实现将用户需求精确定位,进而实现流量变现,提升经济效益。对代码结构的优化和提升也有助于提升系统响应能力,以微信为例,用户的反馈较多的集中在页面更新以及信息加载速度较慢,并且缺乏快速有效的投诉反馈渠道。
4 结束语
总之,基于网络爬虫研究社交类APP的运营与优化具备重要的现实意义,如何打破现有的技术壁垒进行研发是之后需要关注的重点。只有不断总结并改进,才是促进社交类APP优化与提升的关键。