中小网站CDN 一体化引入分发方案的研究与实践
2024-07-24林黄智刘畅吴传杰罗京田柳
摘要:中小网站内容分发网络(CDN) 引入具有无须客户过多介入、引入成本低、易推广等优势,深受广大客户欢迎。但受限于中小网站开发商技术实力弱、政府网站安全性要求高等因素,CDN分发过程存在引入流程长、较多中小网站无法引入或引入效果差、引入后质量保障与安全管控难等痛点。建立CDN引入分发平台可实现引入分析和质量监控一体化,助力CDN分发效果和效率的双提升。
关键词:中小网站;CDN引入;一体化;自服务;分发效果
中图分类号:TP399 文献标识码:A
文章编号:1009-3044(2024)17-0092-03 开放科学(资源服务)标识码(OSID) :
0 引言
内容分发网络(CDN) 是“十四五”时期关键的新技术基础设施,其分发能力、分发范围、分发品质直接关系到各类业务的高质量发展[1]。目前,全网多数热点内容,如点直播视频业务等,在CDN的加速下,业务感知已达到很好的效果,但多数政府民生类的中小网站在覆盖及质量上仍是短板。在数字时代,中小网站与政务服务及热点民生紧密相连,承载着信息交流、文艺文化、休闲娱乐、办事服务、新闻发布及数据开放等诸多功能,成为人民生活中不可或缺的一部分。作为电信运营商重点打造的互联网产品,目前其产品体验尚不理想,同时也增加了运营商市场、运维人员的工作负担,亟须进行优化[2]。
大部分中小网站的源站部署单一,回源质量不理想,恶意封堵、限速频发,运营商约60%的内容质量投诉由中小网站诱发。为提升中小网站的互联网内容服务质量,从根本上解决用户访问政府民生类网站的感知问题,近几年,运营商持续推进中小网站的CDN 引入工作,并在CDN引入的流程与技术上进行了大力优化,建立了支撑CDN引入和分发的自服务工作台,智能化贯穿引入全流程,极大地缩短了中小网站的CDN引入流程,优化了分发效果及业务感知,极大地改善了宽带及专线用户的业务感知,降低了引入及维护的人工成本,并创造了业务价值。
1 中小网站CDN 引入的现状及面临的问题
中小网站CDN引入因其客户无须过多介入、无须对网站现有的网络和架构做任何调整、引入成本低、易推广等优势而受到了广大客户的欢迎。但在中小网站的CDN引入过程中,仍存在一些痛点,影响了网站引入的效率及效果。首先,引入流程长、烦琐,导致引入速度慢。由于大量中小网站开发商技术实力弱、无专业维护人员,对网站了解不足,导致引入所需的各类专业信息无法从网站侧得到准确反馈;同时,中小网站的架构差异小、网站规则相似,CDN引入前分析其网站规则的人工重复性工作多,效率低下。其次,较多中小网站因动态内容较多(如论坛或新闻类),本地网站源站大量在异网,导致封堵、限速频发,回源效果差,进而无法顺利引入或引入效果不理想。再次,引入后存在各种质量和安全隐患,耗费大量维护成本。中小网站域名备案易失效及改动,无法及时发现,而分发内容已备案且备案准确是工信部对CDN 的硬性考核之一;中小网站架构单薄,易出现质量问题或遇到被篡改等安全风险,CDN引入的中小网站数以千计,传统人工监控难以及时发现安全风险。
针对上述中小网站CDN引入的现状及面临的问题,亟须实现CDN引入流程的自动化和闭环化,并建立支撑CDN引入和分发的自服务工作台。
2 一体化引入方案设计与实现
优化中小网站的CDN引入流程及技术的关键在于,建立支撑CDN引入和分发的自服务工作台,实现域名一体化分发流程。这包括优化CDN引入适配算法、提升CDN分发技术、简化CDN引入流程、强化安全及监控能力。自主研发支撑CDN 引入和分发的自服务工作台,智能化贯穿引入前的域名分析及信息收集、引入中的规则适配优化及下发、引入后的备案检查及质量安全监控,以实现中小网站引入分发的批量化、快速化、安全化。
2.1 建立一体化引入流程
1) 优化网站适配技术,实现自动化分析配置。待分发网站分析是分发工作的起点,CDN分发信息需要网站侧提供如表1中所列的30多项基本信息。鉴于开发商技术实力弱、无专业维护人员,对网站缺乏了解,无法反馈准确信息,引入前的网站适配工作需要实现自动化,以减少费时费力的工作。
为了尽量减少对网站侧技术信息的依赖,采取了通过网站域名资源爬取和网站资源及结构深度分析的方法,主动获取所需的网站分发信息,实现了自动化分析与配置下发,从而缩短了CDN引入分发流程,提升了工作效率。图1展示了面向中小网站的全面优化分析、适配技术流程图,自主开发了自动化分析工具,替代了人工方式,实现了智能分析与配置下发,大幅提升了CDN分发效率。
针对域名资源爬取和网站内容结构分析构建如图2分布式爬虫系统,对网页资源采集任务进行调度并触发任务执行,通过分布式爬虫分解资源采集任务,并分配给多个爬虫线程;启动爬虫线程,分布式爬虫系统从队列资源获取URL,根据资源采集任务指定的目标网站爬取URL对应的页面,下载并获取页面数据;对获取的页面数据进行整理清洗,生成与资源采集任务匹配的格式化数据集,并通过持久化处理后存储入数据库。在爬虫过程中,通过路径、元素两个维度对爬虫结果进行归总分析,得到网站资源总体分布和明细;此外使用设置过滤算法的主题型爬虫,滤掉和主题无关的链接,选择性地抓取那些和预先定义好的主题相关的页面。这样可以缩短抓取周期,提高抓取准确度,降低成本。
2) 优化CDN 回源,提升网站分发品质。许多中小网站为动态内容较多的论坛或新闻类,或因源站大量在异网,封堵、限速频发,回源效果差。针对这些网站因为无法引入或引入效果差的现状,通过如图3动态内容加速的方案[3-4],来扩展可分发网站范围,优化网站分发质量。
如图4所示,将网站内容进行动静态内容分离,对静态、动态部分内容分别进行分发加速。针对可以缓存的内容,由边缘节点直接提供,针对不可缓存的动态内容,优化回源协议,提升回源速率。
3) 自研监测工具,保障网站分发可靠性与安全性。针对中小网站备案号易失效、网页质量时常出现问题及网站内容容易被篡改等问题,传统人工监控方式既费时又费力,且难以及时发现。为了应对这些引入后的困难,我们针对已分发网站,实现了多场景、立体式、高效率的业务监控能力,部分监控视图如图5所示,从而进一步提升网站分发质量与安全性[5-6]。具体包括:① 业务流量及并发监控:监控各业务的流量和并发情况,及时处理告警与故障。② CDN日志监控:挖掘CDN日志中的下载速率、响应状态码等价值点,监控CDN分发业务质量。③ 业务拨测监控:对CDN 分发业务进行7×24小时拨测,实时呈现分发业务质量、调度情况,出现质量劣化及时处理。④ 域名调度防劫持自动化监控:对CDN分发域名实施不间断域名解析测试,当监测到解析异常时,自动触发告警通知维护人员。⑤ 域名备案监控:通过与工信部备案系统接口,开展备案号批量化、常态化、周期性检查、校验,实现全量域名备案号每日自动化核查、监控及异常上报。⑥ 网站内容自动化监控:使用计算机视觉处理技术,运用图像识别的原理,模拟人工访问分发网站,获取网站内容并自动进行识别分析,实时监测网页是否能打开,内容有无异常,第一时间发现网页无法登录和网页被恶意篡改问题,并及时推送告警。
2.2 实现一体化引入自服务工作台
为了实现上述功能,基于X86 服务器,建立了CDN引入分发自服务工作台,将CDN网管系统与信息安全系统、CDN 日志、拨测系统及工信部备案系统等接口打通,实现一体化引入分发。如图6 所示,CDN 引入分发自服务工作台从上到下分别为:功能层、任务处理与控制层、数据采集层、数据接口层。主要采集的数据包括:CDN 性能数据、探针拨测的质量数据、网络流量数据、CDN日志数据、内容识别与核查数据、信息安全数据、域名备案数据及资源爬虫数据等。其中,CDN性能数据及网络流量数据来源于CDN 系统网管,日志数据来源于CDN日志系统,探针拨测的质量数据、内容识别与核查数据及爬虫数据来源于拨测系统,域名备案数据来源于工信部备案系统,多维数据通过ftp 近乎实时的统一推送至CDN 引入分发自服务工作台,经过数据处理及分类,存入数据库,方便功能层进行查询展现。
3 结束语
本文搭建的中小网站CDN 引入分发自服务工作台已在现网进行了应用,端到端推进中小网站CDN 分发,引入周期由1个月缩短至3天,快速拓展本地中小网站引入范围,本地关键网站引入率提升至93%,在保障安全的前提下,网站分发质量提高1.2倍以上,高质高效推进中小网站CDN引入工作。在实施智能化域名调度和分发内容监控技术为中小网站分发保驾护航后,域名劫持问题发现时延由1800s降为5s,内容篡改问题发现时延由600s降为5s,有效满足了网页篡改发现的时效性要求。中小网站CDN引入分发自服务工作台在节约人力、降低网站引入成本等方面,带来了良好的经济效益,也通过提升用户感知,提高用户满意度,带来了良好的社会效益。
参考文献:
[1] 姜文颖,倪伟,郭嵩,等.新型内容网络关键技术及发展[J].电信工程技术与标准化,2017,30(10):26-32.
[2] 易立军.从运营商的角度思索CDN发展战略[J].电信技术,2018(S1):88,92.
[3] 万倩,赵明,赵翠.用户行为感知与网络边缘内容分发优化策略研究[J].广播电视信息,2020(3):44-50.
[4] 刘飞扬,叶麟,余翔湛,等.面向大规模网络的实时高可靠消息分发技术[J].智能计算机与应用,2020,10(1):285-289,293.
[5] 崔鹏飞,裘玥,孙瑞.面向网络内容安全的图像识别技术研究[J].信息网络安全,2015(9):154-157.
[6] 董博,李翀,刘学敏,等.基于爬虫的数据监控系统[J].计算机系统应用,2017,26(10):53-60.
【通联编辑:代影】
基金项目:2023 年度安徽省高校科研自然重大项目(2023AH040195);2023 年度安徽省高校科研自然重点项目(2023AH051460);2022 年度安徽省高校科研自然重点项目 (2022AH052074) ;2022 年度安徽职业技术学院校级科技工程项目(2022xjzr003,2022xjzr009) ;2022 年度安徽职业技术学院质量工程重点项目(2022yjjxyj04)