浅析互联网视听节目监测系统的数据采集过程
2022-04-11何丽媛
何丽媛
内蒙古自治区广播电视监测与发展中心 内蒙古 呼和浩特市 010050
引 言
内蒙古互联网视听节目监测系统可分为几大块,其中数据采集是监测的第一步也是及其重要的一步。数据采集过程需要利用多台搜索机构成的机群共同运行,并行合作,对内蒙古自治区整个监测范围内的所有音视频节目网站进行全网搜索,抓取信息。对于其中一些重点网站,要进行增量抓取。在抓取的过程中,还需要将音视频节目中的文本信息抓取出来,以供后续使用。整个数据采集过程如图1所示。
图1 数据采集系统结构图
1 采集控制与调度
采集子系统的作用是为搜索机机群中的每一个搜索机进行任务调度,同时监控每一个搜索机的工作状态是否正常。
在数据采集的过程中,调度机的地址管理模块会给各个搜索机发出指令,搜索机会根据这些指令选择待抓取的视听网站列表。然后根据调度机所发出的时间控制指令,决定搜索机当前处在启动、运行或是保存的状态。搜索机处在运行状态时,会自动下载网页并对已下载网页进行解析,将网页中的链接信息提取出来提交给IP范围判断模块进行判别。
如果链接信息符合搜索机当前的处理任务,会在进行链接地址排重后将该链接加入到下载队列中。
下载完成的网页还需经过内容排重模块的过滤筛选之后才能最终保存到数据集合中去。当搜索机处在保存状态时,会在当前网页下载完毕后,保存其相关的状态和日志信息,并自动退出和结束工作。每个搜索机都设有状态查询模块,当状态查询模块接收到来自调度机的查询指令之后,会从下载等待队列和自动下载模块中读取当前的状态信息返回给调度机,并在用户界面显示相关信息。
2 节目地址提取
节目地址提取指从音视频节目网页中提取出音视频节目真实地址。对于互联网视听网站中的静态页面和普通动态网页来说,其网页中一般都含有Javascript的动态页面或应用了Web2.0技术的页面。针对此类网页,系统会采用网页解析和信息抽取技术,将页面中的相关链接地址抽取出来。同时保存节目与保存在系统中的网页快照的关联关系。但是,部分网站会采用动态网址等地址隐藏技术。针对此类网页,系统则采用Script解析等技术,从包含视音频节目的网页中解析出视音频节目的真实地址。这些抽取出来的节目地址信息包括:各种格式的音视频文件的直接链接以及播放列表m3u文件中的链接还有流媒体视听节目链接等等。
3 音视频采集
音视频采集是指对指定URL的音视频节目数据进行下载,添加到节目数据库中,并能对已有保存内容进行保护,避免新录制的同属性内容覆盖原有内容。
对于音视频节目真实地址,系统会将音视频数据下载下来;对于文件链接,系统会将相关文件下载并保存;对于流媒体链接,系统会采用流媒体分析和下载录制技术保存节目。最后,这些不同途径得到的各种类型的节目和节目信息会进行信息重排,最终加入到信息库,方便用户的查询。
对于这些下载的节目,系统会根据其真实地址的格式、传输协议、节目传播方式给每个下载节目都分配一个唯一的标志。系统会根据此标志对已经保存好的内容进行保护,避免新录制的同属性内容覆盖原有内容。
4 网页采集
4.1 网页采集实现
网页采集需要利用网页抓取技术来实现,主要是通过Web页面之间的链接关系,从Web上自动地获取页面信息。这一过程主要是由Web网页抓取器也称网络爬虫来实现的。它从一个初始的URL集合出发,将集合中的URL全部放入到一个有序的待抓取队列里。而抓取器从该队列中按顺序取出URL,通过相应的协议,获取URL所指向的页面,并保存到本地。再从这些己获取到的页面中提取出新的URL,并将它们继续放入到待抓取队列里。待抓取队列中的URL信息来源可以是新解析出的链接地址,也可以是预先定义好的网站域名列表。上述过程不断重复,直到抓取器根据自己的策略终止抓取。
4.2 网页采集系统
Web网页采集系统主要由网页抓取器、解析器、分派器、URL数据库、选择器、IP控制器、域名服务器、cookie服务器等组成,如图2所示。
图2 Web网页采集系统结构图
通过网页抓取技术对互联网音视频网站进行全面搜索,可以保证较高的效率。尤其是使用了冗余内容排重、分布式多机并行/协作及连接地址排重等技术可以使搜索速度更快,搜索结果准确率更高。此外,互联网上的页面链接并不是统一格式的,一些网页连接是完整的,也可能是省略了部分内容的,或者只是一个相对路径。为了能够高效便捷的处理这些URL,就需要将页面链接中给出的各种格式的URL归一化成统一的格式,进行URL归一化操作,便于处理。
此外,出于安全角度考虑,在网页数据采集的过程中,网页采集系统的搜索机与外部互联网之间采用了地址隐藏技术。利用代理、网络地址翻译等IP地址隐藏技术,将所有访问互联网的搜索机地址加以隐藏,防止被搜索对象进行反向定位,确保了系统安全。
结束语
内蒙古互联网视听节目监测系统是自治区监测与发展中心监测范围内的重要组成部分。其中,数据采集过程更是互联网视听节目监测的基础,是非常重要的一环。数据采集系统的安全高效运行,对于互联视听节目监测的安全和效率具有极大意义和影响。