APP下载

人工智能和数字媒体艺术实践的关系及发展现状

2020-05-28蔡念

视界观·上半月 2020年4期
关键词:图像识别神经网络语音

摘    要:在当今数字背景下,人工智能技术与数字媒体之间关系愈发紧密,从语音、图像识别,到艺术创作的其它方面都印证了两者的联系。人工智能与数字媒体艺术的商业化浪潮暗流涌动,在多领域中,逐渐孕育成为主流之势。

关 键 词:数字媒体艺术实践;人工智能;技术革命

一、基于人工智能的数字媒体艺术实践进入全面超越时代

(一)图像识别

时光追溯回2009年,就曾有学者发表过论文,其中提出针对计算机视觉研究者需要建立首个超大型图像数据库。2010年首次举办了ILSVRC 2010。该大型图像识别竞赛是以Imase Net为基础,最初竞赛的训练样本包括120万个图像。从种类上看,这些图像涉及1000多个类别,且都具有手工标志。程序通过培训后,经过5万多测试图像评估,判断是否能够分类图像。

在2012年度开展的Image Net竞赛中,在30个团体中取得了第一名测试成绩。而位居第二的日本代表队,模型出错率为26.2%。由此说明,在图像识别领域神经网络远远领先于其他技术,有望成为突破人工智能的转折点。

之后微软亚洲研究院(即MSRA)卫冕2015年度的Image Net竞赛的桂冠,提高了网络深度,反而降低了学习效率。为了解决在层层传递中信息有效性的衰减问题,MSRA团队试着导入了“ 深度残余学习”的算法。由此得到了包含152层神经网络的MSRA深度残余学习模型,在前五个类别的测试中,刷新了以往的记录,出错率仅为3.57%,相较于正常人5%左右的出错率还要低。

(二)语音识别

2012年10月,来自于微软,IBM,谷歌,多伦多大学的邓力、Geoffrey Hinton等人共同发表了一篇名为《深度神经网络在语音识别的声学模型中的应用:四个研究小组的共同观点》的文章。他们对神经网络实施了从Hinton中导入的“限制波尔兹曼机”的“预培训”。运用深度神经网络模型对文字识别的几率进行估算。在测试中,谷歌的语音输入,最低的单词错误率为12.3%。

2013年3月,在Alex Graves(多伦多大学)为主导发表的一篇名为《深度循环神经网络用于语音识别》论文中,导入了RNN/LSTM 技术,形成了有三个隐层构成的网络,其中包含自由参数430万个,由此进行的TIMIT基准测试,得出了只有17.7%的“音位错误率”,领先于同期所有技术的效果。

2015年5月,谷歌公开表示在RNN/LSTM等技术的支撑下,谷歌语音已经将单词出错率压缩到了8%(一般正常人为4%左右)。

2015年12月,Dario Amodei代表百度AI实验室发表了一篇名为《英语和汉语的端对端的语音识别》的著作。运用了基于lstm得到的简化模型——封闭循环单元,在长达12000个小时(16个GPU约3-5天)的语音训练下,百度英文语音识别系统在接受WSJEval'92的一个基准测试中,创造了3.1%的单词出错率,这一水平已经比5%的正常人水平还要低。同时在小型汉语的一个测试中,得出的出错率结果为3.7%,而另外的一个由五人构成的团队测试中集体出错率为4%。

从本质上来看,循环神经网络能够对一个序列的长度变化的输入/出(多对多)进行处理。就广义而言,前馈神经网络所优化的对象如果是一个函数(如,识别图像),就可以认为循环神经网络所优化的对象是一个程序,有着更加宽阔的应用空间。

(三)艺术创作

长时间以来,在人类的意识中,机器一直被赋予了理解人类思维及逻辑的能力,而对于丰富的人类情感和美学价值,却认为机器是无法理解的,所以也不可能形成有美学价值的作品。然而以往的实践历历在目,在与李世石对局中阿尔法狗下出了让我们震撼的一步,面对阿尔法狗的高超下法,就连聂卫平先生都脱帽致敬,由此证明,深度学习算法具备了美学价值的自发创造能力。实际上,人工神经网络在视觉艺术领域,已经能够区分出一副作品的风格及内容,同时能够掌握多种艺术风格,并随意地运用到其他作品中,可以在同样的内容上,尝试多种艺术风格来渲染。

(四)其它方面

谷歌AI实验室于2016年5月的一篇报道中表示,对机器开展英文言情小说的培训,让机器从2865部小说中学习叙事方式与用词风格。通过观察程序的演化进程来看,单词的空格结构,最先被机器模型所领悟,随后有短到长识别了更多单词,并逐步掌握了标点符号的运用,一些相关性较高的语句结构也被重新慢慢掌握。

2016年5月,谷歌的Deep Mind团队对其开发的“神经编程解释器”做了相关报道,该神经网络不仅具备自主学习程序的能力,且能够完成一些简单的程序编辑,具备了初级程序员的能力。

二、基于人工智能的数字媒体艺术实践的商业化浪潮

2015年,谷歌推出了TensorFlow开源机器学习平台,脸书定制打造的FBLeamer Flow平台,显著的提升了员工效率;特斯拉也在同年的5月,创设Open AI升源人工智能系统。一时间人工智能领域热闹异常,大量工业巨头携带巨资蜂拥而入,加速了人工智能的前进步伐,代表性的如百度大脑计划、IBM的沃森系统、微软的同声翻译等。

2016年,在IBM的带领下,全球人工智能开启了首轮核心业务转型,并驱动人工智能的商业化浪潮。现阶段,深度学习的焦点如同疾风一样向以深度卷积神经网络为依托的物体检测和定位,分割蔓延,一旦突破将会引领人工智能加快转化,实现产业化发展。基于人工智能与大数据、机器人、云平台、移动互联等融合的持续深化,人工智能开始转向基础性、前沿性、关键性的重要角色。以大数据为基础建立的商业直觉、业务流程智能化、产品服务差异化,驱动人工智能向医疗、新闻、律师、保险、金融、数字个人主体等新领域进军且占据了核心地位,全面地渗透于日常生活。

人工智能虽然实现了突破性的成长,但还只是一颗幼苗。虽然联结主义的方法无坚不摧、战无不胜,然而在理论层面却缺乏坚实的基础。立足于仿生学与经验实现的突破,并未实现透彻的理解与预测。小样本的学习如何开展,尤其是自主的对周围环境进行学习,提高学习的泛化性,均是亟待剖析的热点。

就当前而言,在图像识别、文本处理、语音识别、艺术美学、艺术博弈、软件开发等领域,人工智能已经全面超越人类。在医疗、新闻、律师、保险、金融、数字个人主体等领域,人工智能显然是势不可挡的主流,由其引发的新一轮技术革命正在孕育,人工智能暗流涌动,或即将面临全面爆发!

参考文献:

[1]张登峰.《人工智能艺术的美学限度及其可能的未来》[J].江汉学术2019,(01):86-92.

[2]徐放鸣.《审美文化新视野》[M].北京:中国社会科学出版社,2008.303

作者简介:蔡念,女,生于1994年,江苏扬州人,南京艺术学院2017级研究生,研究方向:数字媒体。

基金项目:此文章為2018年江苏省研究生科研实践创新项目 项目编号:SJCX18_0548。

猜你喜欢

图像识别神经网络语音
基于人工智能LSTM循环神经网络的学习成绩预测
基于计算机视觉的图像识别技术研究
基于图像处理与卷积神经网络的零件识别
微信语音恐惧症
基于自适应神经网络的电网稳定性预测
魔力语音
Magic Phonetics魔力语音
人工智能背景下图像识别技术浅析
对方正在输入……
三次样条和二次删除相辅助的WASD神经网络与日本人口预测