VR作品素材的人工智能解决方案
2023-06-02傅骏郑丁元曾欣雨傅馨竹顾诗艺杨艳萍
傅骏 郑丁元 曾欣雨 傅馨竹 顾诗艺 杨艳萍
關键词:人工智能生成;虚拟现实;科研育人
在推行“123N”科研育人模式的过程中,围绕“立德树人”的育人主线,通过双途径提升,实现三阶段培养,紧扣“N”个痛点,以服务社会和实现文化传承,项目团队始终坚持科技伦理和工程伦理,充分尊重知识版权,正确合理利用商业软件和开源软件。
在承担教育部VR专项教研课题与完成省级大学生创新创业课题《你好,青铜器》《VR助力人工智能教学》等VR作品期间,利用开源人工智能平台开发了系列软件,既满足了制作VR作品的素材方面的精准需求,同时获得多个软件著作权,有力地提升了师生的工程实践能力,培育了一批创新创业项目。
1开源人工智能平台
搭建平台需要选用合适的开发语言,完成素材的导人,对结果提取所需信息并保存。
1.1开发语言
开发人工智能程序时,建议采用“Python+VSCode"的开发环境[1]。
1.1.1Python
近年来,在主流编程语言应用排行榜中,Python长期占据前几位甚至连续很长时间为第一名。原因在于其代码简洁、语法优美、简单易学,并且开源、扩展性好。有爱好者称赞“Python为人工智能的首选语言”,它广泛应用在机器学习、深度学习、神经网络等领域。
1.1.2Visual Studio Code
Python自带集成开发和学习环境IDLE,但建议采用pycharm或Visual Studio Code开发。VSCode是一由微软开发且跨平台的免费源代码编辑器,轻量、简单易用。安装VSCode后扩展安装Python运行库即可。
1.1.3开发原则
在开发时,遵循软件工程伦理。只使用来自合法渠道的精确数据,且只使用正当授权的手段。遵守最合适的产业标准,而不仅仅是技术标准。
代码文档化,变量名做到“见名知义”,添加必要的注释。追求“清晰第一,效率第二”的原则,不允许卖弄技巧的堆积[2]。
1.2资源的导入
对文字和图片的处理,均需要采用通用字符形式。base64是一种可以在HTTP协议下面传输这种较长数据的编码格式,并且它是以8字节来保存数据的,能够表示ASCII码。
1.2.1文本的读入
用open即可导人txt命令。考虑到导人的txt文本可能存在多种格式的字符,使用以下命令导人txt文本,对不可识别的符号予以忽略:
1.2.2图片的base64格式
一个图片文件对象内包含许多的图像信息,需要将表示它的数组结构转为计算机文件数据传输协议之中的通用格式。Python中将图片pic转为base64和ASCII的命令为:
pica=open( 'pic-, -rb') .read
picb64=base64.b64encode( pica.read()))
picstr=str( picb64)
1.2.3正则表达式
正则表达式使用单个字符串来描述、匹配某个句法规则的字符串,通常被用来检索、替换符合某个模式(规则)的文本。
在正则表达式中,将字符串zifu中的“AI”替换成“人工智能”和“虚拟现实”替换成“VR”的命令是:
1.3开源API调用
开源AI平台主要提供的有应用功能、平台功能和文心AIGC,提供SDK和API的一种或两种方式供用户使用。用户在控制台通过“创建应用”,获得API_KEY(AK)和SECRET_KEY(SK)。
SDK使用流程相对简洁,使用AK及SK即可实现功能。应用API时,要先通过AK及SK获得访问令牌[3]。
1.3.1获得访问令牌
获得访问令牌token的方法是:
1.3.2API访问
平台提供基于response库的POST或GET两种方式。比如,对图片1mage实现ocr识别的API方式是:
1.3.3结果的提取和保存
API以字典和列表的形式来展示结果。列表的提取是用元素的下表标示,从0开始。字典是用“键一值”来访问,如result[ 'name']。
不同功能的结果类型不一定相同。可以用type来查看数据类型。对字符型可以用eval转化为数值型,对数值型则用str转化为字符型。
有时为了便于区分,可以在保存的文本或图片名称中加上时间戳,采用的命令是time.ctime(),结果是“星期月日时分秒年”格式,如“Sun Feb 5 15:05:IO2023”表示当前是2023年2月5日星期天下午15:05:10。
2人工智能技术获得VR作品素材
开发虚拟现实VR作品用到的素材有图片、文字、语音、视频等。它们可以利用人工智能生成AIGC技术,也可以利用素材进行基于人工智能的编辑。
2.1素材的人工智能生成AIGC技术
作品内容的生成在经历专业生成PGC、用户生成UGC之后,发展到人工智能生成AIGC。AIGC也走过了助手和协作阶段,进入到了原创阶段。
2.1.1文心AI作画
VR作品中的壁画、挂图等图片可以利用文心AIGC技术生成。其流程是:
(1)导人文心一格API。
通过pip install wenxin-api命令安装文心API。调用命令是:
import wenxin_api
from
wenxin—api. tasks. text—to—image
importTextToImage
(2)API调用生成图片。
文心作画的关键代码是:
以上参数中,“text”是对图片的描述文字,要遵循prompt规则。“style”是图片格式,如蒸汽波艺术、像素风格、赛博朋克。“resolution”是生成的图片尺寸,有1024x1024,1024x1536,1536x1024这3种。“number”是生成的图片数量,取值范围是1—6。
(3)结果提取。
运行结果rst以字典形式展示,其中键“imgUrls”是生成的图片的网址,通过picurl=rst[ 'imgUrls]获得全部网址并保存在列表picurl中,picurl中元素个数即为获得的图片数量。
打开picurl中第1个网址查看图片的命令是:
import webbrowser
webbrowser.open( picurl[0])
将第1个网页中的图片以参数“text”中的prompt及时间戳作为名称,保存在当前路径下的命令是:
2.1.2文本获得语音
人工智能中文本合成技术的实现通过文本生成语音MP3格式的功能。文本合成调用的网址是HTTP:∥TSN.BAIDU.COM/TEXT2AUDIO.
代码主要的参数中,“TEX”待转换为语音的文本。“LAN”是指语言类别。“SPD”是语速,取值范围为0~15。“PIT”是音调,取值范围为0~15。“VOL”是音量,取值范围为0~15,默认值为5。“PER”选择发音角色。“AUE”为声音输出格式,3为MP3格式,4为PCM格式,6为WAV格式等。
经过测试,合成2000字符的中文为MP3,时间一般在2~3s。声音清晰,可直接使用。
2.2素材的人工智能编辑技术
对于获得的文本、声音、图片等资源进行基于人工智能技术的编辑,满足VR作品对素材的需求。
2.2.1文本翻译
向外国人“讲好中国故事”也是弘扬中华传统文化的方式之一,对“立德树人”、树立文化自信大有益处。
文本翻译功能获得翻译后的文本。文本翻译调用的网址是HTTPS:∥AIP. BAIDUBCE. COM/RPC/2.O/MT/TEXTTRANS。代码中主要的参数是语言类别,“FROM_LANG”是输入文本的类别,可以设置为“AUTO”。“TO_LANG”是翻译后的语言类别,如中文为“ZH”。
翻译后的结果以列表和字典形式展示。翻译后的结果在键“TRANS_RESULT”下的“DST”中。
经过测试,翻译2000字符的中文为英语,时间一般在IS以内。
2.2.2图片合规性审查
该功能过滤图像中的色情、广告、恶心、违禁等违规内容,也能从美观、清晰等维度对图像进行筛选。
图片合规性审查的网址是HTTPS:∥AIP.BAIDUBCE. COM/REST/2. O/SOLUTION/VI/IMG—CENSOR/V2/USER—DEFINED。代码的参数中,“IMAGE”为BASE64格式的图片。“IMGTYPE”是图片类型,0是靜态图片,1是动态图片。
审查后的结果以列表和字典形式展示。其中,“CONCLUSIONTYPE”是审核结论,1表示合规,2表示不合规。在键“CONCLUSION”下的“MSG”键中显示不合规的具体项目,如“存在爆炸火灾不合规”“疑似存在艺术品不合规”等。
2.2.3图像的智能化编辑
(1)风格转换。
图像风格转换提供多种艺术风格特效转化服务,还可自定义风格图像进行风格迁移。
实现风格转换调用的网址是HTTPS:∥AIP.BAIDUBCE. COM/REST/2. O/IMAGE-PROCESS/V1/STYLE_TRANS。代码中主要的参数“OPTION”是希望的图像风格。其中,“CARTOON”是卡通画风格,“PENCIL”是铅笔风格,“GOTHIC”是哥特油画风格。
图1是将JPG格式原图转化为PENCIL铅笔风格效果对比图。该图原件是基于文心AI作画的AIGC技术生成的。
(2)黑白图像上色。
本功能实现智能识别黑白图像内容并填充色彩,使黑白图像变得鲜活。
实现黑白图像上色的网址是https:∥aip.baidubce. com/rest/2. 0/image-process/vl/colourize。
主要的参数是image,是base64格式的图片。指定图片名称后,将实现保存上色后的图片。
3结束语
在开发VR作品的过程中,应用人工智能技术开源平台技术,基于AIGC生成技术创作素材以及基于人工智能技术对素材进行编辑,可以确保精准获得自己需要的素材,同时不侵犯其他软件的版权。
人工智能技术方兴未艾,在创新创业课题中基于开源人工智能技术创作开发作品所需的素材,提升了项目团队的科研能力和工程实践能力,将“立德树人”、科研育人落在了实处。