教育直播中音视频流与文件流双流技术

2019-03-29邱锴

商情 2019年6期

邱锴

一、背景

近年来，在线教育发展势头磅礴，其具有高效、便捷、低门槛、教学资源丰富等优点;加上“互联网+”推动，在线教育平台规模逐渐扩大，据中国行业研究报告网数据显示，预计未来几年将继续保持20%左右的速度增长，保持在千亿级以上，产品有着广阔的发展空间。

网络直播迅速发展成为一种新的互联网文化业态，视频直播技术已经得到了非常广泛的应用，从秀场到游戏、再到电商、旅游、教育等各个领域，直播的潜能已被无限拓展。

教育直播市场需求速增长的时代，在流量风暴推动下，中国移动借势在教育直播领域发力，研发具有行业竞争力的自有产品微课堂。

二、关键技术

（一）音视频流

视频流：主要通过Pc教师客户端采集视频流推送到CDN，CDN再进行分发，观众端进行拉流观看。

音视频流特点：

（1）更清晰流畅的音质。音频引擎提供了多种编解码（opus、AMR-wB、AMR-NH、G.711（PcMA/Pc MIJ）、G.729、AAC等），采用了AEC/AES（回声消除）、ANR（噪声消除）、AGC（音频增益控制）、ARS（自动码率调整）、PLC（丢包隐藏）、FEC（前向纠错）等多种技术，明显改善了音频的质量，无论对端的音量是20分贝还是150分贝，无论对端背景噪声是鞭炮、人声、还是工业噪音，即便在60%丢包的情况下，本端听到的语音都清晰流畅，且保持在80至100分贝的舒适音量。

（2）更加清晰明亮的画质。视频引擎采用了智能曝光及图像增强等先进的视频采集增强技术，通过模拟和数字处理方式智能调节亮度和对比度，明显改善了较暗光线环境下的视频效果，使画质更清晰明亮。

（3）音视频传输抗丢包。移动网络的不稳定性、高丢包率一直是影响移动通信用户体验的大障碍;音视频引擎采用了独创的高精度智能算法和先进的QoS质量控制技术，解决了因设备和网络差异引起的音视频质量不稳定和体验无法最佳化的问题，在网络状态好的时候支持高清语音和高清视频通话、在网络状态不佳时能智能调节语音和视频的清晰度，不至于通话因网络干扰而被中断，让用户在复杂网络状态下也能享受清晰流畅的音视频通话。

视频编解码及传输层除了使用传统的FIR、FEC和NACK等技术外，还采用了两种抗丢包技术RPSI-SLI（引用帧选择技术），通过编解码（支持H-264，VP8）和RTCP反馈的深度合作，通过RFC4585规定的两种反馈控制机制RPSI/SLI来实现发送端和接收端的信息交流及控制，能够大大降低网络丢包对视频质量的损伤。另外，媒体引擎中还使用了自动帧速率控制（SFrC）、码率自适应（AR8）、分辨率自适应（resolution control）等算法，对帧速率做了非常精细的控制，使得在给定的网络条件下能够达到相对最佳的视频主观质量，即使网络丢包率较高时（最高60%丢包），仍能提供比较清晰流畅的音视频体验。

（二）文件流

文档流：Pc教师客户端将文档、涂鸦等转换成图片通过Http、Socket协议直接传输给观众。

（三）音视频流与文件流

直播音视频单流推送时，交互的信息较少，样式相对单一。

音视频流与文件流双流：融合双向流技术，不仅能提供了丰富的文件流（课件、涂鸦、聊天等）使得主播和观众交互方式更多样，还有以下三个方面效益：

（1）降低对网络带宽的要求：文档流作为主流，文档、涂鸦等以图片的形式传输到观看端，既保证了高清显示又降低了消耗流量;将视频流作为辅助流可以设置较低的分辨率，不仅提高视频流畅性，而且降低流量消耗

（2）提高了转码效率：流文件越大，转码所需时间约长，将文件流与视频流分离，大大少于合流形成流媒体，降低转码时长，减少转码的排队时长

（3）视频流和文件流双流混合成私有格式文件，避免相关文件外传造成损失。

视频流和文件流两个通道进行传输将导致双流在时间上存在不同步的问题，因此，需时间校准算法实现视频流和文件流同步显不：

视频流采集后推流到CDN，CDN通道分发传输存在大约12秒的时间延迟，这个延迟主要由三方面造成：老师推流时设置的关键帧2秒;rtmp协议大约5秒;客户端播放器缓存一段时间才播放，大约也是5秒

而文档流是及时传输，大约1秒就會显示，为了规避时间同步的问题，采用如下技术方案：

在正常网络情况下对rtmp、flv、hls等协议传输的视频，从老师端开始推流到学生端显示平均的延迟时间大约12秒，文档流进行延迟约12秒显示;为文件流建立时间轴，以保证视频流和文档流按时间轴同步。