APP下载

多源数据聚合系统及相关技术

2017-11-09刘辉

电子技术与软件工程 2017年19期
关键词:视频网站

刘辉

摘 要数据聚合是指通过同时聚集和多个数据源分析数据来获取信息全貌的数据。在数据信息的多样化发展下,为了实现对各类数据的多元化分析和应用,相关人员需要结合实际采取多样化的策略来处理多源数据下载,从而提升数据信息应用效率。

【关键词】多源数据聚合系统 视频网站 聚合 传输加速

网络技术的快速发展使得视频分享技术也得到了进步,由此在社会上出现了一批视频分享网站。成功的视频网站往往需要具备节目内容丰富和节目播放流畅的特点。但是现阶段一些视频网站应用的都是B/S结构,服务器自身承载能力和视频播出流畅性是有限的。为了提升视频播放质量,在聚集互联网各类视频的基础上提出了一种新型多源数据聚合系统。在这个系统上能够让用户浏览更多网站的内容,帮助用户聚合资源,提升视频播放流畅性。

1 多源数据聚合系统概述

1.1 概要设计

多源数据聚合系统建设的目的是为用户提供高质量、能够交互的的媒体播放服务,并在此基础航完成定向广告、個性化搜索。多源数据聚合p2p流媒体点播系统——CloudMedia,是一个视频分享网站系统,在视频点播中添加了p2p技术。CloudMedia由爬虫、视频网站、客户端、索引服务器、视频网站等共同组成,以网络视频的形式向用户展现信息。其中,爬虫服务器主要是针对不同网站采用不同的方式来播放视频。索引服务器主要是用来索引在线peer,实现对peer地点信息的有效管理。用户(peer)主要负责的是从其他节点和网站服务器中获取媒体数据,完成任务的调度操作、拓扑的维护以及缓冲地带的管理。

1.2 工作流程

(1)爬虫在视频网站上获取加载页面以及一些相关节目的信息,具体包括缩略图、评论、简介等。

(2)将获取的数据信息在CloudMedia 网站上进行展现。

(3)打开用户客户端口实现对网站的访问。

(4)用户结合自己的需要来选择播放视频节目,FLASH 播放器将视频地址发送给客户端。

(5)在播放的时候,用户点击视频节目,Flash播放器就会自动播放视频。

(6)客户端向索引服务器汇报自己的信息。

(7)索引服务器根据客户端所在的位置来选择信息,提升视频节目播放速度。

2 多源数据聚合系统的详细设计

2.1 系统模块划分

多源数据的聚合系统模块划分如图1所示。根据图发现,爬虫和网站模块公共完成了聚合功能,客户端和索引服务器完成相应的加速功能。其中,爬虫的工作流程是首先输入一些网页地址作为起始数据信息,对页面中的内容进行分析,结合需要提取重要的网页地址,及时剔除掉和网页分析算法不相关的链接,保留有意义的链接。在爬虫系统中,经过改进之后的系统针对不同的视频网站设置了不同过滤策略,最终获取视频播放网页。门户网站的工作主要是将数据库中的节目展现出来,并加以索引进行管理和引导。

2.2 视频网站爬虫模块

CloudMedia 网站会通过爬虫来获取网络视频节目,并实现对这些节目的分类管理。爬虫级别低的划分有以下几种:

2.2.1 轻量级爬虫Spider

轻量级爬虫Spider将输入的链接作为起点,并通过多线程分析链接,最终将链接结果存入到数据库中。Spider是一种多线程的爬虫,每个线程操作都需要从等待的队列中选择一个分析队列,在下载文本信息链接之后从中获取有价值的信息。这种爬虫设计操作比较简单,分析线程数量无法自动调整。

2.2.2 Heritage

Heritage是一个开源的网络爬虫,具有很强的可拓展性,由此在操作的过程中也显示出其结构的复杂。 Heritage主要包括数据采集器、资源抽取器、边界控制器、处理器链。其中,数据采集器主要是用来解释网络传输协议。资源抽取器则是对采集器信息内容的一种解析。

2.3 Cloud Media网站模块

Cloud Media 网站是一个动态化的网站,在应用过程中主要是将数据库中的视频展现给用户,并同时具备视频的分类、搜索、登录、评论等功能。

2.3.1 Cloud Media 网站设计

网站的设计需要应用PHP语言,对系统分类栏目、视频播放、用户信息等都有着明确的显示。

2.3.2 数据库的设计

Cloud Media 网站模块常见的数据表有Crawler 和 Video Info 表。前者主要是存放爬虫获得的链接,在表中有代表视频序号、播放页面地址、图片地址爬虫下载的标识。后者则主要是存放播放页面的信息。

2.4 Cloud Media的客户端模块

2.4.1 设计

Cloud Media客户端模块向HTTP服务器请求数据信息,服务器在收到之后会将某一时间点上的数据全部发送过来,并借助P2P的形式实现数据信息的传输。Cloud Media客户端模块包括网络视频地址、网络视频数据下载、网络视频压缩包等。客户端在下载视频数据之后,对数据视频进行打包操作处理,在打包操作之后将信息发送给各个播放器进行播放。经过HTTP下载的数据信息,需要确定估算时间点,进而开展P2P数据调度。

2.4.2 实现

用户启动客户端的时候会向系统索引服务器发出请求,在连接上索引服务器之后,向上级汇报自己的节目信息。如果客户端有能够p2p加速节点,则是可以向这个节点请求操作。在数据下载的过程中需要检查播放器操作,借助播放器来播放缓冲区数据内容。

2.5 索引服务器模块

Cloud Media媒体播放系统需要设定一个专门的索引服务器,将所有的节点接入到p2p网络初始点上。在节点登录的时候相索引服务器汇报节点本地缓冲区的视频文件信息。在节点加入频道观看节目的时候,系统会将所要观看的节目信息和具体播放位置发送到索引服务器上,进而完成p2p的网络过程。

3 结束语

综上所述,Cloud Media多源流媒体数据系统由爬虫、网站、客户端和索引服务器共同组成,文章就这些系统的组成和设计实现问题进行了分析,并对系统的功能做出了说明,经过运行测试证明了Cloud Media系统的各项功能都达到了预期目标。

参考文献

[1]刘经纬.多源媒体数据聚合与传输加速系统[D].华中科技大学,2011.

[2]孟宇龙.基于本体的多源异构安全数据聚合[D].哈尔滨工程大学,2010.

作者单位

贵州省邮电规划设计院有限公司 贵州省贵阳市 550003

猜你喜欢

视频网站
视频网站的运营模式优化
视频网站的运营模式优化
从《奇葩说》《火星情报局》看网络自制综艺节目的兴盛
我国当前视频网站自制脱口秀节目的现状与发展对策研究
我国视频网站自制节目的发展浅析
《欢乐颂》在视频网站热播的传播学原理分析