APP下载

一个基于语音识别的演示文稿自动控制与播放系统

2020-01-26薛晴张金轩庞文健牛连强

电脑知识与技术 2020年34期
关键词:自然语言处理语音识别

薛晴 张金轩 庞文健 牛连强

摘要:为了实现对演示文稿PowerPoint(PPT)的自动控制和自然交互,设计了一个基于语音识别的演示文稿自动控制与播放系统:小音同学。系统以语音识别、自然语言处理和文本模糊匹配等作为支撑技术,利用演讲者的语音信息实现PPT的语音跟随和操作控制,如自动翻页和跳转等。利用该系统,演讲者不需要借助额外控制设备或键盘操作,也不必花精力做前期排练,可集中精力于演讲本身。实际测试和分析表明,系统语音识别准确,控制方便,且对语音到文本转换及方言都能提供较好的支持,可以被广泛应用于授课、宣传、演讲等一般的PPT应用场景。

关键词:语音识别; 文本匹配;演示文稿;自然语言处理

中图分类号:TP311      文献标识码:A

文章编号:1009-3044(2020)34-0195-03

1引言

演示文稿(PPT)是一种常见的重要辅助工具,在宣传、报告、授课及答辩中众多活动中被广泛使用。一次高水平的演讲更重视PPT页面不仅与演讲内容的一致性,演讲者常常需要事先做长时间的演练,或者安排专门的PPT操作人员,人为因素或设备故障都容易导致误操作。

较早语音技术[1,2]将其用于处理文稿演示的工作来自2016年科大讯飞申请的专利“一种多媒体转写方法和系统”[3],解决了用户再次观看学习PPT内容时,演讲者的演讲内容与对应PPT页数不同步的问题。2018年,文献[4]在播放PPT时,依据规定的分句策略,通过语音识别引擎判断语句中是否包含控制指令唤醒词,形成类似于“字幕”的效果。体感操控演示文稿系统[5]提供了一种通过人体动作控制PPT的方案,采用kinect体感设备实现了通过手势识别控制的翻页操作。

本文以云语音识别为基础,通过语音跟随控制PPT的自动步进,保持与演讲速度的一致性,以消除额外的设备支持和生硬的唤醒词指令控制。为了应付特殊需要,也通过语义识别接口,加入了自定义的等价唤醒词及控制指令。同时,对演讲内容做实时文字转录,并提供方言识别模式,方便记录和增强对不规范语音的支持能力。

2系统结构与工作流程

对于一般的演讲场景,使用默认的普通话语音识别引擎即可满足演讲需求。系统读取PPT中的文本和由演讲内容转换的文本后,对所有文本进行分词、过滤处理,再利用文本匹配算法计算文本相似度,当演讲者演讲内容与PPT演示内容的相似度达到所设定阈值后,将翻页信号传递给PPT控制模块,完成PPT翻页。图1说明了基本的工作流程。

系统利用普通麦克作为音源采集設备,采用阿里云语音识别引擎实现对语音的实时转写。下述流程对系统各节点的处理方法和应用的技术做了细化。

(1)系统预设一个指定区域,演讲者将PPT文件拖曳至此区域。系统读取PPT页面的文本框内容及其位置等相关信息,开始文字提取并激活语音识别接口。

(2)将从PPT中提取的文本以特定格式存储,进行正则过滤和自然语言处理。

(3)以PPT文字为配准依据,初始化配准模块。

(4)从麦克风采集演讲者的音频,循环检测上传语音,云端语音识别引擎对语音进行文字转换、校验并返回转写结果。

(5)云端转写文本通过自然语言处理后,与PPT中提取的文本进行匹配,根据处理结果决定是否调用控制PPT操作的相关方法。

3系统设计

系统设计的核心内容包括语音识别、PPT文本提取和文本匹配三部分。

3.1 语音识别

(1)云语音识别接口。语音识别采用阿里云实时语音识别接口,将语音识别中用到的识别特征库、复杂的计算和语音数据都置于云端服务器上。采用云语音识别技术的优势主要体现在,因为计算和存储压力都放到了云端,可降低开发成本,缩短应用开发周期。同时,有助于解决离线语音识别时的识别率低、识别速度慢等问题。此外,还可以避免离线语音识别程序一般较大,不方便用户获取和安装的困难。

该接口支持pcm音频编码格式和8000Hz、16000Hz的音频采样率。

(2)语音文本预处理。为确保文本匹配阶段的精度,对语音识别得到的字符串进行筛查,目的是提高匹配的精准度以及匹配的速度。

Step1. 用正则表达式([^\u4e00-\u9fa5:;,。!?])匹配出所有非中文文本并删除。

Step2. 如果字符串长度小于2,(之前的中间内容删除)文本内容价值低,舍弃。否则,视为有效的语音识别结果,保留,待后续匹配。

(3)场景与方言。考虑到用户的多样性以及词汇差别较大的不同应用场景,系统引入了多种场景语音识别模式,如通用中文、新零售领域、政法庭审、医疗领域、演讲领域等。同时,引入如湖北、四川、粤语等多种方言识别模式。语音识别模式由阿里云实时语音识别引擎提供。

3.2  PPT的文本提取、存储及处理

PPT页面处理部分包括提取文本作为匹配的依据,对不利于匹配的内容进行过滤,对复杂的多文本框进行筛选和排序,对提取到的文本进行自然语言处理等,目的是建立待匹配文本序列。

(1)文本读取。本文采用Apache POI的XSLF与HSLF组件处理PPT的文本相关信息,包括读取、创建和编辑,二者分别对应2007及以上版本(新版)和2003版本(旧版)。

首先,判别PPT文件的版本。若PPT文件扩展名的末端字母为“t”或“T”,表明为旧版。若为“x”或“X”则为新版。以此决定选用HSLF或XSLF组件。

其次,创建存储PPT各页的文本对象的类PPTTextSave。每页PPT都由若干文本框组成,每个文本框中的全部信息都储存在一个PPTString类对象中。

对PPT文本用正则表达式([^\u4e00-\u9fa5:;,。!?])匹配出所有非中文文本并删除。筛查后的文本保存至PPTTextSave类中。

(2)文本框排序。将通过正则表达式筛查后的文本以每一个文本框为单位进行分词、词性标注和关键词提取,并对文本框进行排序。由于一页中的文本框大小、位置的复杂性,为了确定文本框的顺序,本文建立了如下的排序算法:

Step 1. 计算所有文本框坐标和尺寸。

Step 2. 检测所有文本框的交叉关系。

Step 3. 对所有文本框,依据其top稳定排序。

Step 4. 依据高度交叉大小为依据,测试所有处于相同层的文本框并加标记。

Step 5. 对每个同层的文本框稳定排序,加标记,设置匹配顺序。

当文本框经判断被确认为是该页中最后一个文本框时,提取并存储其中最后一句话的关键词,为末端匹配算法做准备。

(3)PPT文本存储。储存每个文本框内的全部信息,包括各文本框所在的位置、文本框的宽高、文本框中的文字内容、文本框中文字的分词结果、文本框内文本的多个关键词以及文本框是否被匹配等相关信息。

在此类中对PPT内的文字使用Java ansj分词器的ToAnalysis分词方式进行分词,标注词性(基于HMM和ngram方式)、去掉无意义的词语和提取关键字等处理。其中,提取关键词的个数由文本框中的文本长度决定。

3.3文本匹配

为了保证匹配的准确性和鲁棒性,文本匹配部分使用了四种匹配方式将语音识别得到的文字与PPT提取得到的文字进行匹配。

(1)末端匹配。当使用者的语音信息经语音识别处理后得到的文字包含此页PPT中所有需要进行末端(或人为加入的注释)匹配的词语时,认为匹配成功,否则匹配失败。

(2)精准匹配。演讲者的语音信息经语音识别处理后得到一段文字,计算其与每个文本框中的文本相似度。当相似度大于指定的阈值(取0.8)时认为匹配成功。

文本相似度采用了google公司的simhash算法:

Step 1. 將文本分词,得到无噪音词的单词序列并赋予每个单词权重。

Step 2. 计算出每个词的hash值。

Step 3. 将hash值按单词权重形成加权数字串。

Step 4. 累加加权数字串,得到序列串。

Step 5. 对序列串降维(大于0的数字维度记为1,否则为0),得到simhash签名。

Hash的位数会影响文本匹配的精确度,图2显示了一次测试结果。实验发现,当hash数为64时,获取的文本相似度值较为稳定合理。

(3)关键词匹配。若由演讲者的语音文本包含了某文本框内的所有关键词,认为匹配成功,否则匹配失败。

(4)翻页指令匹配。若演讲者的语音文本与翻页或回退指令库中的指令一致,执行相应操作。

PPT控制模块使用Java robot类模拟键盘按键→、←控制翻页或回退。

本文对系统进行了实际测试,测试组数为100,在相对安静、网络信号稳定的情况下,语音文本与真实文本的匹配度超过98%。在语句较为简短时错误率增高,其原因是此时语音识别引擎很难做到“自校”,即根据语义动态修改之前已识别的内容。

4结论

本文提出了一个无须额外设备实现PPT基于演讲者的语音信息自动控制翻页和跳转的方案,综合运用了语音识别、自然语言

处理和模糊匹配等技术,给出了实现方法。实际构建系统,并针对演讲时的实际使用表明,本系统能够较为准确地控制PPT的自动翻页操作,也可为PPT演示提供其他语音控制命令,并能提供一些如会议记录等辅助功能,是解放演讲人双手的有效方法。

参考文献:

[1]蘧鹏里.语音识别技术综述[J].计算机产品与流通,2018(8):105.

[2] 刘金媛,孟宪遵,丁海韬.改变移动互联网的新型人机交互技术[J].电信科学,2013,29(6):136-138,163.

[3]王金钖,胡尹,潘青华,等.一种多媒体转写方法和系统:中华人民共和国, G10L15/04; G10L15/18;[P].2016-03-30.

[4]俞凯,赵晏彬.演示文稿的操作方法及系统:中华人民共和国,CN108920128A [P].2018-07-12.

[5]伊凤娇,李岩,王宁.体感操控演示文稿系统的设计与实现[J].计算机产品与流通,2018(8):264,266.

【通联编辑:光文玲】

猜你喜欢

自然语言处理语音识别
基于组合分类算法的源代码注释质量评估方法
通话中的语音识别技术
词向量的语义学规范化
基于LD3320的非特定人识别声控灯系统设计