APP下载

互联网科普音频内容数据采集处理系统

2020-05-29陈利军刘婉婉

濮阳职业技术学院学报 2020年3期
关键词:脱敏音频科普

陈利军,刘婉婉

(河南经贸职业学院 计算机工程学院,河南 郑州 450018)

一、背景

新媒体技术作为新科普资源的要素主要包括科普数字电视、科普网站或频道、科普动漫、科普短信、科普博客等[1](19)。在网络科普不断活跃的基础上,极大地拓展科普渠道,从而引起科普工作思维模式和科普理念的变化[2](168)[3](87)[4](10)。 而互联网科普音 频主要是将科技资讯、科普知识和科普读物音频化来满足公众的需求[5](3)。目前,科普音频传播还处在成长阶段,如何引入传播学理论和方法来实现互联网科普音频内容的汇集及所传播数据的采集势必成为未来的研究重点。

众所周知,近年来大数据技术在各个领域所取得的成功和相关理论研究的不断深入,尤其面对音频这类数据量巨大、类型多样、内容广泛的数据时,大数据技术均能够合理有效地进行分析并提供可靠的预测精度和可信度[6](12)。因此,针对互联网科普音频,最实用的知识汇总手段就是采用大数据技术中数据分析、数据挖掘等方式,评测海量音频数据中内部知识和知识之间的关联程度,进而达到音频内容的汇聚目的。在音频数据的采集方面,采用的主流技术主要包括实时音频采集技术[7](2017)、大数据平台下的音频数据采集技术[8](48)等。以大数据平台数据采集技术为例,传统的搜索引擎采集互联网数据时由于人工介入较多且效率低下,因此提出了网页采集调度概念。采集调度器(Scheduler)就是通过PageRank方法观察互联网页面拓扑链接结构关系来衡量网页重要程度,以此确定采集队列中待采集队列的优先级,优先采集重要程度较高的链接所指向的页面[9](171)。而实时音视频的数据采集和传输技术应用十分广泛,因为在不同的场合对于实时音视频数据采集和传输技术的要求也有所不同,所以根据实际问题选择合适的技术设计是非常重要的。

归根结底,所有上述介绍都是为满足互联网科普音频对公众的传播而言。因此对于互联网科普音频来说,由于手机移动电台的种种特性,依托音频进行科普具有碎片化时间的利用、解放双手和双眼、技术简单且成本较低以及能够与听众实现实时互动等优势[10](74)。目前科普类音频节目主要有三大类:一类是资讯整理型,让用户了解最新的科学技术领域的消息;二类是原创科普节目,每期或每个专辑确定一个主题,然后进行深入详细的科普讲解;三类是有图书音频化节目,将文字形式的科普读物以声音的形式播放。而对于平台和节目制作者来说,其潜在优势是用户习惯的养成和用户黏性的提高。对于科普效果来说,用户养成收听的习惯更有利于培养其科学素养。因此,对互联网科普音频内容汇聚及传播数据采集分析研究较为重要,可为提升互联网科普数据的多样性,精准地掌握科普领域媒介融合的发展态势以及用户科普需求行为规律提出对策建议。

二、方法

针对互联网科普音频信息量大、内容和来源复杂、数据非结构化等问题,一般的音频数据采集过程主要采用数据清洗、多协议方式、分布式数据库等技术构建科普音频数据采集、融合、脱敏系统,具体可见图1。

其中图1左图为采集分析的整体构建过程,以C/S架构为基础创建音频子系统。首先通过AudioRecord类并初始化相关化相关参数,进行音频的采集,然后进行音频数据的编码,最后释放AudioRecord类。图1右图为脱敏子系统,即敏感词脱离。具体的流程是获取用户的账号及权限,然后进入脱敏系统,对需要进行脱敏的数据进行源数据注册,进而进行目标地址的注册,对一些敏感数据进行脱敏处理。而对于传统的音频处理技术来说,最常见的方式是“预处理-处理”解决范式。在预处理阶段,待检测音频数据导入音频数据库,对其特征进行分析进而提取源码,并将这些源码添加到数据库中。在处理阶段,主要通过提取的音频数据的特征将检索分为粗搜索和精搜索两个阶段。当查询音频具有特征时得到精搜索结构,当只包含源码时,对照码本获取粗搜索结果,具体如图2所示。

因此,本文综合使用多种技术采集符合要求的音频数据,同时分析科普音频数据并进行内容汇聚。其中,所采用的数据分析方法包括描述统计、信度分析、相关分析、聚类分析、时间序列分析等。此外,本文利用大数据技术进行音频采集、音频处理以及内容汇聚等。

(一)音频采集

针对互联网科普音频信息量大、内容庞杂、来源复杂、数据非结构化等问题,通过清洗、多协议方式、分布式数据库等多种技术,构建科普音频数据采集、融合、脱敏系统。其中,音频采集分析系统以大数据技术为基础,通过音频搜索技术、音频数据采集与解析技术、音频试听节目采集下载技术、音频自动判别与归类技术、音频信息综合检索技术、数据库技术等多方面的信息技术,对有社会影响力、用户数量多的音频平台的科普资源和用户数据进行发现、下载、分析、定位,从而实现对音频网站采集分析。本文的音频数据采集如图3所示,分为两个路线,即工作线程和监控线程。采集科普认证机构、监督机构和行政机关公开信息的链接,通常是根据一个父链接,通过访问父链接来寻找页面上的子链接,然后判断这些子链接是否为公开需要找的资料,然后定位到多个子链接上,继而完成整个链接库的建立,下载科普音频数据,通过大数据平台实时分析得到数据的分析结果,存入数据仓库。

(二)音频处理

处理科普音频数据时,根据采集的科普音频数据,配置分布式数据库,利用深度神经网络DNN技术对数据进行场景的分类和提取,对于有敏感信息的科普音频数据,进行脱敏化处理,最终通过大数据技术,获取所需要的有社会影响力、用户数量多的音频平台的科普资源和用户数据采集。具体过程如图4所示。

下面对基于DNN的科普音频数据的分类和提取以及分布式数据库的设计和构建进行说明。

1.DNN科普音频数据的处理。本项目拟采用深度神经网络技术(DNN)进行科普音频数据的采集、分类和提取。在数据处理的训练阶段,将采集到的场景训练数据集先计算语谱图,得到语谱图相关信息,然后将所得到的信息作为输入导入解卷积神经网络中进行模型训练,待模型收敛时停止。对于待场景测试的样本集,首要过程如训练阶段一致,同样计算语谱图,然后将得到的信息作为输入导入网络模型中获取测试样本集的特征向量。最后将得到的特征向量通过训练得到的最优KNN分类模型来获取音频场景的分类结果。具体如图5所示。

2.分布式数据库设计。对于分布式数据库的设计,采用分布式数据库对科普音频数据进行大数据的处理和管理。图6提供了一种比较高效的解决方案,通过Hbase处理实时数据,因为Hbase的读写和并发速度可以进行实时查询,通过Hive存储处理后的大量数据,实现数据统计。

3.音频数据的检索和分析。对采集的科普音频进行数据分析时,对存在的异构、多源问题展开多种分析方式,同时在已集成好的系统中进行音频检索时也采用不同的检索方式来观察系统的性能。具体如图7所示。

(三)数据调研

目前,我们的音频科普数据主要从喜马拉雅FM中提取获得,通过听众人数来筛选最广泛播放的音频数据,我们主要抽取听众人数大于10万的前15条科普音频。通过调查,具体结果如图8所示。

通过图8可以看出,在前15条相对广泛被收听的科普音频中,新闻类科普、文学类科普以及图书类科普居于榜首,分别达到158.4万、118.4万以及48.8万,充分体现了现代科普音频数据的方向趋势。我们在未来会进一步关注相关的科普音频数据内容的相关信息。

三、结论

本文构建了科普音频的评价体系。首先,分析音频数据相关信息,通过机器学习、深度学习等方向方法,分析科普音频信息的关键影响因素,确立科普音频信息的评价指标,研究科普音频内容评价方法,形成科普音频的评价体系。同时,面向多平台的用户行为一致性分析,针对差异化的多媒体平台,通过对不同平台的用户行为分析,消除差异化影响,提取共性特征,基于时间维度、访问频次等方面建立多平台统一的用户行为模型。其次,形成用户画像的系列性研究。运用多学科交叉的方法,对以音频为代表的复杂社会网络上的科学传播行为模式、传播路径进行深入研究,揭示传播者、传播内容、用户行为的机理与规律,同时借助音频研究、大数据分析,聚焦科普音频科学传播现实问题,构建互联网科普音频传播机制。

猜你喜欢

脱敏音频科普
Egdon Heath (Extract from The Return of the Native)
激光联合脱敏剂治疗牙本质过敏症
快速脱敏治疗的临床应用
柏韵音频举办Pureaudio 2021新产品发布会
科普达人养成记
开盘录音带音频资料的数字化
科普漫画
科普漫画
创维超级芯片VCT 3803彩色电视机电路分析(6)音频信号处理电路
慎用脱敏牙膏