APP下载

网络爬虫技术在基层平安建设中应用探索

2020-07-22张尚旻阮湘辉

数字技术与应用 2020年6期
关键词:应用

张尚旻 阮湘辉

摘要:网络爬虫技术能多渠道获取数据,通过完善服务对象的“画像”,有效提高基层社会综合治理的能力。本文探讨了网络爬虫技术,研究分析了网络爬虫技术具体应用。

关键词:网络爬虫技术;平安建设;应用

中图分类号:TP311.1    文献标识码:A    文章编号:1007-9416(2020)06-0000-00

0 引言

当前,大数据技术高速发展,如何充分挖掘公开网络中各类信息数据在平安建设中能发挥的作用和价值,是在“人工智能+”时代推进电子政务的集约化关注的热点。传统的平安建设手段导致基层负担重、行政效能较低,基础性、源头性、苗头性社会问题防控还需要进一步加强。城市管理与城市治理相关部门的业务流程和需考虑的管理因素愈发复杂,积累了大量离散的数据,但限制于各种原因,管理部门间业务协同、数据协同需求不能及时获取。这时,基层管理部门就可以使用网络爬虫技术作为实现平安建设的辅助技术手段之一,提高分析、研判和预测的精准性。

1 网络爬虫技术概述

网络爬虫技术是一种网络化机器人,能够可以自动访问互联网并将网站内的内容下载下来,相当于是一个智能的机器人,其提取的信息用于后续分析决策。

1.1 爬虫技术在大数据系统框架中的位置

大数据技术是在国家治理能力现代化的现实需求下,是基层平安建设模式更新和改善的重要技术。基层平安建设要实现以大数据技术为内在驱动,来贯穿架构中的基础环境层、数据获取层、分析预测层和决策辅助层。其中数据获取层要通过多渠道、高质量数据采集得到准确的数据挖掘结果,确定和预测安全风险等级,为相关的职能部门提供决策支持。

1.2 网络爬虫技术的应用思路

(1)策略选择。网络爬虫技术主要分为深度优先搜索策略、宽度优先搜索策略和聚焦搜索策略。其中宽度优先搜索策略的原理是从顶层到底层开始遍历循环搜索,一级页面遍历搜索后再对二级页面进行遍历搜索,以此类推,循环往复,直到将所有页面遍历搜索结束为止。目前,宽度优先搜索策略是我们首选的网络爬虫技术策略[1]。(2)工具选择。很多时候我们会想到Python网络爬虫,实际上数据采集的方法、渠道很广,有些可以直接使用开放的数据源,不需要自己爬取,例如可以在“网易财经”上直接下载沪深300指数的历史交易数据;又如比如交通行业,数据采集会和摄像头或者测速仪有关;对于运维人员,日志采集和分析则是关键。所以我们需要针对特定的业务场景,选择适合的采集工具。基层平安建设工作人员作为技术应用而非开发者,更应该专注自身工作。例如准备重点事件的研判材料,会议参与人最想知道的不是采集的过程,而是整体的概况,比如说多少人在关注和评论。作为快速应用,采用可视化方式的第三方工具来进行采集是首选。

2 网络爬虫技术在基层平安建设中的辅助应用

网络爬虫技术在基层平安建设中的具体应用场景主要集中在两个方面:一是实现对热点事件的全方位了解,二是服务特定人群。

2.1 辖区热点事件

基层有大量行业领域热点事件需要我们去关注。以房地产及相关领域为例,包括了延期交房矛盾和物业矛盾等。我们以比较常见的“成立业委会”为应用场景,通过网络爬虫技术实现对网络上实时数据的获取,更好的掌握服务对象的情况和类似案例的整体情况,实现辖区的平安稳定。

2.1.1 流程选择

流程设计实际上就是方式的选择。就是需要告诉网络爬虫工具,准备如何操作页面、想要提取页面上的哪些信息和是否需要翻页等。根据我们的实际需要可以选择不同的方式。“八爪鱼”提供了三种方式进行选择:(1)简易采集。它集成大众经常访问的热门网站的模板。(2)智能识别模式。通过该模式,我们可以采集在“简易模板”里没有的网站数据。一个网页可能有多组数据,八爪鱼会将所有数据识别出来,然后智能推荐最常用的那组。如果推荐的不是想要的,可自行“切换识别结果”。同时,可自动识别出网页的滚动和翻页;(3)自定义模式。自定义模式是基于有特定需要的情况,贴近用户需求,我们将采用该类模式。

2.1.2 自定义采集实施

(1)打开网页:这是采集默认第一项。这里,我们输入重庆网络问政平台的网址。(2)输入文本:输入文本属于高级辅助步骤,可以帮我们更好地对数据进行提取,比如我们想要某个关键词的数据,就需要在网页输入框中输入对应的文字。在本文中,我们将“成立业委会”列入关键词。(3)点击元素:这里元素的定义比较广泛,它可以是某个按钮,或者某个链接,也或者是某个图片或文字。使用这个步骤是你在搜索或者提交某个请求。在点击元素后,爬虫工具会提示你想要达到的目的:点击该按钮、采集该元素文本、还是鼠标移到该链接上。然后再选择“点击该按钮”进行确认即可[2]。在本例中,我们在设置上面输入“成立业委会”后点击“搜索”按钮。(4)循环翻页:使用中,很多网页存在翻页的情况比如网页底部的“下一页”按钮,“八爪鱼”处于编辑状态时,点击该按钮,会提示如何对该按钮进行操作,是“循环点击下一页”、“采集该链接文本”还是“点击该链接”。通常需要确认要进行的“循环点击下一页”的操作。在本例中的网页是“点击加载更多”,为了避免数据重复提取,我们需要将“循环翻页”设置在“循环提取”之前,即打开所有信息后再进行提取。(5)启动采集和提取:设计好采集流程后就可以启动采集任务了,任务结束后,八爪鱼会提示你保存采集好的数据,通常是xlsx或csv格式。如果你使用的是自定义采集,就需要自己来设计采集流程,也就是采集流程中的第二步。这样,我们就将以“成立业委会”为关键字的信息提取完毕,包括了“题目”“链接”“正文”“发表时间”“处理情况”“浏览次数”等32条信息;同样,我们也可以就相同的關键词在其它平台进行搜索,并且将搜索到的大量数据进行汇总,交由后台进行数据分析。

2.2 服务特定人群

通过网络爬虫技术,可以够造更加全面的特定人群的“全景画像”,有助于对行为的研判,更好的为他们提供服务,促进风险防范的手段更加完善。以“二手车交易”人群为例,通过网络爬虫技术结合授权信息可以实现对服务人群的“抽象标签化”,除了性别、年龄、地域等基本属性,还可以统计消费习惯(消费习惯、购买意向、是否对促销敏感)、行为习惯(使用App的时间段、频次、时长、访问路径)和偏好分析(网络浏览的内容、停留时间长、浏览次数多的内容等)。

3 结语

本文仅探索了面向基层工作人员的网络爬虫技术的应用,数据库的链接标准性等问题均未在本文中讨论。

参考文献

[1] 郭锋锋.基于python的网络爬虫研究[J].佳木斯大学学报(自然科学版),2020(2):62-65.

[2] 王晓楠,李杨,张海峰,张宇.面向网络爬虫的网站优化策略[J].农家参谋,2020(5):179.

[3] 杜修振,吴乘龙,曾彪,周翌欣,陈实.基于大数据的网络舆情监控系统[J].信息技术与信息化,2020(2):18-20.

收稿日期:2020-05-09

作者简介:张尚旻(1981—),男,重庆人,硕士研究生,研究方向:人工智能大数据分析。

猜你喜欢

应用
多媒体技术在小学语文教学中的应用研究
微课的翻转课堂在英语教学中的应用研究