APP下载

专攻语音生产力,通义听悟深度体验

2023-06-28颜媛媛

电脑报 2023年24期

颜媛媛

你需要通义听悟吗

如果你是一名职场人士,通义听悟可以帮你记录和回顧你的每一场会议;

如果你是一位学生朋友,通义听悟可以让你不遗漏老师讲授的每一个重点;

如果你是一名金融分析师或媒体从业人员,通义听悟可以存档你每一次的调研访谈;

如果你想以最快的时间看完你最喜爱的视频博主的直播分享,通义听悟可以使你以成倍的速度抓住最精彩的内容。

根据阿里云智能首席技术官周靖人介绍,听悟集成了阿里最先进的语音和语言技术。其内置阿里新一代工业级语音识别模型,识别准确率在多个权威中文数据集上名列第一;融合自研语音语义多模态说话人算法,能对 10 人以上说话场景进行角色区分;接入通义千问大模型后,能够对上万字的音视频内容进行摘要总结,事实准确与要点完备性国内领先,支持跨多音视频内容的精准问答理解。

事实上,通义听悟的前身是阿里云内部一个名为“听悟”的产品,主要功能包括实时会议、音频转写功能,“听悟”自2022 年年底就开始小范围内测。而如今,在阿里云通义千问大模型的加持下,通义听悟成为人们工作学习的AI 助手,从会议讨论、教学培训到调研访谈,通义听悟都能极大提高人们的工作效率。

自动做笔记、提取PPT、整理访谈“打工人”的好帮手

通义听悟具有极强的工具属性,而在看重软件生产力的办公领域,能够帮助“打工人”自动做笔记、提取PPT、整理访谈的通义听悟一亮相就受到大众的高度关注。目前通义听悟提供小程序和PC 网页两个使用途径,其中,移动端通义听悟界面设计相对简单,提供“上传手机音视频”“实时记录”“权益加油站”三个选项,通常简单的会议记录喜欢用手机直接做“实时记录”,不过遗憾的是通义听悟建议在PC 端体验更多功能,这意味着手机端更多的操作还是以“上传手机音视频”为主(如图1)。

上传之前,通义听悟会让用户选择“转写语言”及是否“区分发言人”,提前做好预设之后,明显能更准确地获得文字转写记录。而在选择上传内容界面,让笔者比较惊喜的是除顶部工具条按照“图片”“音频”“视频”“文档”做了分类,方便用户选择本地文件外,用户还可以打开第三方应用提取音视频文件。

比较有意思的是通义听悟自身介绍时表示可以打通同阿里云盘的内容关联,但在移动版通义听悟内容选择界面,其加入了“中国移动云盘”这一选项(如图2)。笔者尝试点击“中国移动云盘”后发现,能很好地识别网盘里面的内容,但是无法提取文件。

顺带尝试了一下“录音机”发现同样无法提取,而显示的是系统“录音机”功能界面,但即便是录音无法导入,从测试结果看,移动版通义听悟在第三方应用兼容上还有待提升。转而尝试PC 版通义听悟。

打开通义听悟官方网站(tingwu.aliyun.com)后,用户使用手机号即可登录。进入首界面之后比较直观的就是“开启实时记录”和“上传音视频”两个选项,点击“开启实时记录”后即可开始录音(如图3)。

在点击“开始录音”按钮以前,用户可以和移动版一样选择“转写语言”和“翻译”,点击“开始录音”按键后,通义听悟会开始工作。PC 端的通义听悟在语音编辑这块带给笔者极大的惊喜。用户停止同步录音后,会跳转到编辑界面。左侧为智能总结界面,非常清晰地展示“关键词”“全文概要”等内容,用户也可以手动进行编辑(如图4)。

而在左侧的编辑界面中,用户可以利用PC 键盘进行高效编辑,而且还可以直接插入图片、表格等元素,在功能上完全可以和部分轻办公的在线文档一较高低。除了高效编辑功能的搭载外,通义听悟在顶部快捷工具栏上还设置了翻译、高亮标注、AI 实验室等功能。

相对于人们熟悉的高亮标注、翻译功能,AI 实验室提供“发言人区分”“问题回顾”“待办事项”等细分功能,开启这些功能后,智能算法会根据自己的理解对本次记录中的内容进行标注与分类。完成一系列操作之后,用户可以点击界面左侧边栏,选择导出文件,除文字内容可以以doc\pdf\srt 等多种格式导出外,笔记、音频文件也可以按用户需求进行导出。除强大的编辑功能外,多人访谈的录音转文字应用也是通义听悟的一大特色,其能自动根据语音对文字内容进行分类,让用户能够对多人会议或者电话采访录音进行高效转录及整理(如图5)。

网盘课程转写、智能生成课堂笔记学生群体的一对一私教

随着远程教育的发展,网课资源变得格外丰富,不过动辄数百小时的视频课程,虽然直观生动地对知识点进行了讲解,可对于中高年级学生而言,一些难度相对较低的课程,文本形式的内容获取方式更为高效,而较难的内容,配合文本概要,同样能起到事半功倍的效果。

通义听悟可以实现学习视频的批量转写,帮助用户轻松掌握学习秘籍。打开“上传音视频”功能,选择“上传本地音视频文件”并上传,即可生成课程记录。最棒的还是PC 版通义听悟打通了同阿里云盘的链接,可以选择“导入阿里云盘文件”并上传(如图6)。

初次使用需要用户先绑定阿里云盘账号,用户通过手机APP 扫码、账号密码或手机验证码等多种方式登录并同意通义听悟绑定阿里云盘账号。完成绑定后会弹出文件目录让用户选择,文字分级菜单让用户选择起来非常方便,而右上角的“音频”“视频”两个选项也为用户筛选提供了便利。

通义听悟在内容识别整理方面绝对是令人惊喜的,其播放课程视频,文字与视频进度可以实现一一对应,用户可以点击文字跳转进度,随心切换感兴趣的内容。以左侧工具栏中的“关键词”为例,用户点击相应关键词之后,视频会滚动到相应的部分,而内容框也会出现该视频内容的文字翻译,为用户提供最详细的内容拆解。

通义听悟非常强悍的是它会为用户总结全文概要、章节速览,方便学生了解课程要点,回顾讲解片段。对于网课学生而言,这样的整理能够为用户节省下大量笔记时间,进而让学生在网课过程中更集中注意力在课程内容本身。

除全程记录课程要点外,通义听悟更难能可贵的是支持问题回顾。用户打开通义听悟实验室,开启问题回顾,即可查看课程中的答疑内容。

而有了详细的原文内容之后,用户就可以在通义听悟里面进行原文内容的重点标注,让学习和复习效率更高。同时,通义听悟支持中英互译,在顶部翻译功能入口,开启翻译即可。可以选择双语显示/ 只看译文。

最受学生好评的还是笔记整理功能,用户可以在右侧笔记中,记录核心知识点,将课程原文一键摘取至笔记中。在该功能的加持下,几小时的课程,往往只需5 分钟即可完成笔记。而这一系列操作都可以在通义听悟右侧文本编辑界面中完成,而每完成一个课程的笔记整理后,即可点击页面左侧“导出”按钮,将转写结果、笔记等内容导出至本地或阿里云盘。你可以选择需要的文件格式。

公测福利不可少时长和容量都很重要

在语音转文字领域,通义听悟属于“新人”一般的存在,处于推广阶段的通义听悟自然会有不少福利让用户领取。首先便是时长,毕竟无论是会议记录还是音视频内容翻译,动辄数小时一次的内容,需要不少时长话费。目前通义听悟的时长活动主要有三个,分别是“每日登录通义听悟,自动获得2 小时转写时长”“每邀请1 名好友注册并登录通义听悟账号,邀请者可获得2 小时转写时长”和“输入口令兑换转写时长”(如图7)。

这三个活动中,“输入口令兑换转写时长”能够领取的时长最多,笔者只兑换了两个口令时长加上日常登录积累,已经积累了快50 小时使用时长了。相对使用时长,比较尴尬的是存储空间,笔者已经绑定阿里云盘的情况下,也就获得了2GB 的存储空间,可视频转录基本一个视频就在1GB 上下,相当于2 个视频课程就会容量告急,何况不少在线视频课程容量都在1GB 以上,而一旦容量使用完成,就没办法再进行任何转录操作了(如图8)。

从笔者的使用经验看,一旦通义听悟有促销活动出来,用户一定要将存储空间放到第一位,只有扩大了存储空间,才能无所顾忌地實现转录,否则就需要完成一个视频的转录、删除掉以后再完成下一个。

总体而言,无论工作还是学习,通义听悟表现出的生产力工具属性都大为让人惊喜,尤其是笔记整理、问答显示等使用功能的配备,更让其成为极优秀的“学伴”!