基于DPI 的互联网视频业务精准推荐方法
2023-11-05徐坚耀
徐坚耀
(桐乡市传媒中心,浙江 嘉兴 314599)
0 引 言
随着互联网带宽和用户终端性能的提升,网络视频用户呈爆发式增长。同时,视频网站、OTT(Over The Top)视频盒子、智能电视视频集成以及视频协议也在快速增长。如何从海量的上网用户中精准找出视频用户并准确地描述其行为喜好,个性化地推荐互联网电视业务,是视频运营商面临的一个难题。
深度包检测(Deep Packet Inspection,DPI)设备通过对网络关键点处的流量和报文内容进行检测分析,可以根据事先定义的策略对检测流量进行过滤控制,能完成所在链路的业务精细化识别、业务流量流向分析、业务流量占比统计、业务占比整形、应用层拒绝服务攻击、对病毒/木马进行过滤以及滥用点对点(Peer-to-Peer,P2P)控制等功能。
1 技术方案
目前,互联网视频内容推荐主要有两类方法[1]。一类是从互联网视频运营网站获取用户请求和观看本网站视频的消费行为信息,对信息进行分析,以获取视频用户的行为。这种方法存在以下缺陷:用户观看多个视频网站时,在每个网站的行为只是用户行为的一部分,网站间信息无法相互关联;网站视频用户与运营商宽带用户没有关联关系,无法进行精确匹配。另一类方法是从上网流量中获取用户访问的统一资源定位器(Uniform Resource Locator,URL),基于URL 进行用户上网行为分析,提取营销关键词,对用户进行标签化处理。这种方式也存在如下短板:互联网视频多采用分片形式,一个视频有很多URL,单纯分析URL,无法关联去重;URL 中的视频信息有限,无法获取视频的类型、时长、码率等信息,也就无法完整地描述用户的视频行为喜好。
当前技术手段的种种限制,导致互联网电视运营手段还处在粗放经营阶段,无法精准聚焦营销对象,制约了运营商互联网电视的发展。
为了克服上述现有技术的不足,本文提供一种基于用户行为分析的互联网电视推荐方法,利用对视频流量的深度报文检测技术结合数据建模,提取价值视频用户标签化,应用到互联网电视业务的精确推荐中。该方法采用DPI 深度报文检测技术分析视频流量,使用“视频标签”进行数据建模,数据模型包括但不限于定义“视频类网站”“视频搜索关键字”“视频类协议”“自购视频盒子”“视频码率”“观看时长”“视频流量”“视频体验”等,进行价值视频用户的挖掘。
2 用户行为识别机制原理
本文方法通过在固定互联网部署分光汇聚分流,对用户上网流量进行统计和分析,从网站访问次数、关键字搜索次数、协议访问流量等多维度去挖掘用户行为习惯和规律,标记不同的标签,进而生成对应的用户标签群组。
用户上网后,对用户上网过程中发生的各类业务数据流进行解析,并提取关键字段产生流日志。流日志由4 个部分组成,分别是用户信息(Account等)、流信息[五元组(Source IP,Source Port,Dest IP,Dest Port,Protocol)信息和链路信息]、事务信息以及协议信息,形成一条完整的用户访问记录[2]。
从多维度定义视频标签,如从分类URL 访问、搜索关键字、视频盒子协议的次数和流量维度定义多样化标签。当用户访问记录被识别到符合标签定义,判断为点击流并将用户账号同步至对应的标签组。该方法的业务流程如图1 所示。
图1 业务流程图
3 用户标签生成的实现
3.1 标签设置
本文要解决的问题是设置用户多样化标签,通过设定视频类网站、视频搜索关键字、视频类协议、自购视频盒子、视频码率、观看时长、视频流量、视频体验等,输出诸如“重度视频”“4K”、具体片源如“重案六组”等标签,聚焦互联网电视业务的推广支撑。本方案所描述的以上标签设置和生成方法如下。
本文在进行策略配置时对互联网用户流量进行过分析,考虑到视频网站虽然多样但有集中的特色,用户访问视频网站的流量多集中在TOP10 甚至TOP5 网站,热门协议集中在优酷土豆、爱奇艺、腾讯、搜狐等。综合热门视频网站,即可支撑视频类网站的标签配置。视频类协议、自购视频盒子均通过识别主流协议并建立协议库即可采集流量,并以此形成“视频偏好”用户群。
本文通过建立搜索网站特征库存放搜索网站规则,通过URL 中的搜索路径字段判断用户的Web访问请求是否是搜索行为并匹配搜索参数。视频搜索关键字是关键字维度的源数据,可以配置营销需要的热门片源[3]。例如,在电视剧《重案六组》热映期间,通过挖掘对该片有搜索行为的用户,向其营销互联网电视业务。
通过本文识别原理提及的“形成一条完整的用户访问记录”,分析用户观看视频的观看时长、视频流量来形成“重度视频”用户群。“视频体验”通过记录用户访问视频的过程,采集用户发送传输控制协议(Transmission Control Protocol,TCP)连接的时间点、收到“HTTP 200 OK”的时间点、开始播放的时间点、视频卡顿时间点以及最后一个带净荷的视频数据包的时间点,来生成视频播放成功率、时延、卡顿及速率等相关指标,并综合评价这些指标形成用户体验[4]。当用户体验感知差的时候,即可向用户推荐高带宽宽带产品和互联网电视产品。本文方法的标签配置策略和标签库生成规则如图2所示。
3.2 具体实现方法
本方案由深度视频报文解析DPI 设备、URL及搜索关键字分析服务器(URL and search Keyword Analysis Server,UKAS)、视频文件分析服务器(Video Analysis Service,VAS)、用户行为分析服务器(User Behavior Analytics Server,UBAS)以及互联网电视业务推荐系统组成,功能实现如图3 所示。
深度视频报文解析DPI 设备负责从用户的上线认证Radius 信息中获取IP 与用户的关联关系,然后从用户的上网流量中识别视频搜索关键字识别视频请求和下载流量,进行深度分析和还原,以提取视频URL、视频流量,将相关信息送到UKAS和VAS[5]。
UKAS 负责对收到的视频URL、搜索关键字等视频请求信息进行去重、归类和模式匹配,输出视频URL 的视频类别、播放器类别、关键字的类别等信息给UBAS。
VAS 负责对收到的视频流量进行关联、去重,提取视频的关键信息,包括视频格式、视频大小、码率(清晰度)及播放时长等,并将这些信息传输给UBAS。
UBAS 负责接收UKAS 和VAS 输出信息,进行关联检索分析。在算法上,UBAS 利用标签模糊匹配和映射表的方式,将用户标记上不同的视频标签属性和优先级。其中,标签优先级利用模糊匹配和权重值结合的算法实现。优先级记为P,用户多个视频行为信息模糊命中某一个视频标签Key 值次数为N,每次的模糊匹配度为X1~Xn,这一视频标签的权重为W,则
互联网电视业务推荐系统根据用户标记的视频标签属性,生成与用户视频行为喜好相匹配的专属推荐页面,通过URL 推送的形式推荐给用户。该方法典型的功能组网如图4 所示。
图4 典型组网图
用户标签形成后,互联网视频业务推荐系统根据阈值,周期性地分析用户详情数据,判决重度用户(价值用户)。当用户上网,系统根据配置的用户策略判断是否为用户进行信息推送、相关推送时间点和推送次数,以及推送触发条件[6]。推送服务器根据推送参数信息向用户展示推送信息,推送流程完成。以上为重度价值视频用户的挖掘和推送流程。
3.3 实施效果
按照上述设计理念,通过数据分析用户视频行为喜好标签得出现网大数据集群的文件中用户号码、内容频道、内容类型、时长、流量、天数(汇总获得)及请求次数等关键值,如图5 所示。
4 结 语
本文采用DPI 深度报文检测技术分析视频流量,基于用户行为分析的互联网电视业务推荐方法,以解决当前用户视频行为分析的不完整、不准确问题。所述方法也可用于更加精准的营销行为。用户通过配置“视频搜索关键字”标签,互联网电视业务推荐系统判决推送条件后,可进行互联网视频内容的精准推送,有效拉动用户兴趣视频的转移。