Python人工智能视语双联合交互臂
2022-05-31张仕远卢彪杨晨倪冰倩
张仕远 卢彪 杨晨 倪冰倩
摘 要:整个系统的协调需要有一套完整又优良的程序支撑。需要做到,既能实现相应的单个功能,又要创新将各个功能进行联系而不仅限于实现。各模块相互协调,功能的实现与优化存在多方面的依赖。系统的完整性、稳定性、交互性都是开发时需要考虑的重点。
关键词:人工智能;机械臂;交互;YOLO
一、引言
当前人工智能领域正在不如我们的日常生活,人工智能领域的研究为人们的生活带来了极大的改变。除此之外,应用于商业的人工智能研究也在不断进步。对于当前的人工智能领域的研究,重点之一是模式识别。说起模式识别,一些主流的算法为设计者搭建自己的项目也提供了一些方便,同时让更多人更容易参与其中的开发,也就为更多人工智能领域的作品能够应运而生。特别是对于一些还在使用人力的单调工作,为了解决此类问题,智能化的机械臂代替人工操作也就由此开始研究、开发。
二、项目架构
Python人工智能视语双联合交互臂的研究针对于大多数产业及一些其他普通工作的智能自动化。项目采用了Python语言设计,内部嵌入式环境为Linux衍生的Ubuntu系统。项目开发之所以采用嵌入式,原因在于该方式可以极大程度上降低项目的开发周期,同时能够在项目开发过程中出现问题时便于调试。
YOLOv5在图像识别方面采用多方面图像处理算法。在图像处理上,通过卷积神经网络来对开发人员的数据集进行训练。反复训练能够提高对于同样一个模型的角度的准确率。模型训练过程中能够自适应图像的位置,能够对于要识别物体的特征进行分析,同时屏蔽掉一些干扰,识别中通过调整对目标检测的相似度来保证得到的训练结果能够更加精确。
模型检测中,在视频输入流下,对于摄像模块的适配需要注意。视频流的目标检测是通过对于视频中的每一帧进行单独检测输出到屏幕从而实现视频流检测功能。如果视频的刷新率为25Hz,那么就要求程序在检测时,需要保证在一秒内能够对流中读取到的帧检测能力超过25次,由此可见,对于目标的检测时间必须要保证在较短的时间里把一张图像的检测结果分析处理,否则就无法流畅地进行视频流目标检测,用户也就无法有更好的体验。
视频流带宽需要满足:带宽≥刷新频率×视频尺寸×视频灰度等级
语言功能开发包括两个方面:一是需要对外界的语音进行识别。二是能够把需要输出的文字转化为音频输出。语音的交互能力是机器走向智能化的趋向,当机器能够通过自然语言把欲表达的信息能够通过语音输出模块输出为音频后能够友好地与人汇报时,对于人机交互的实现就成功了一半。另一半是能够将人类语言能够通过一定的算法,转化为一个参数从而能够被机器理解,通过一定的处理后做出合理的动作,此时的人机语音交互能力就提升了一大台阶。
语言的应用目前十分热门,其开发热度不亚于图像处理。语言的处理不仅仅停留于将自然语言转化为相应的文字即可,也不是对于同样的文字执行固定的指令,而是执行相应的指令。这里的“相应的指令”是指在不同的环境下能够通过同样的一句话做出不同的动作并且达到交互者预期的动作。
三、程序设计
Python人工智能视语双联合交互臂的视觉开发主要依赖于cv2及numpy等主流图像处理库。开发中要尽量只导入工程开发需要的函数,整个工程中过多地导入冗余函数会使得工程过大,运行速度也会受到影响。
client = AipBodyAnalysis(APP_ID, API_KEY, SECRET_KEY)
调用百度官方API实现机械臂的手势识别,同时也可以通过模型训练实现无需API即可识别使用者手势。通过手势的识别,为多种返回的识别结果进行定义,以此实现机械臂的简单视觉交互功能。对于较完善的视觉交互还需要一定地深度学习。通过长期地训练得到更加智能化的人机交互。
人脸采用PID算法过滤:
import cv2 as cv
import PID
import Arm_Lib
人脸识别的人机交互能够实现对于不同的人,机械臂得到同样一个参数时做出的不同反映。程序结果在可控情况下的多样性是机械臂往人工智能方向发展的一大进步。
在人机交互上,如果要实现语音方面的人机交互,对于机械臂的自动协调能力要有较高的能力。在不同的人说出不同的语言时通过机械臂的自动化智能识别,需要根据用户的语言判断语种,从而做出准确判断。其形成初期是需要用户在切换语种时需要事先传达切换指令,但是在成熟时期,就需要作品能够自我协调,能够有识别出语种切换的能力。
四、开发导引
智能交互臂的开发进步具体的算法实现还有很大的提升空间。例如,当我们进行人机交互时,对于每一次的交互结果进行函数计算,动态更新判断资料库,对于偏差较大的值能够忽略,达到优则用,劣则弃的目的。语言上的学习和视觉上的学习是能够进行联合分析进步的,两者虽然在人工智能领域上各自独占一方,但是在人工智能方向的发展两者密不可分。
人机交互的结果能够通过定制机器语言字典,结合一定的随机性算法,构建出独特的机器神经网络,机器独立裁决及机器提疑答疑。
五、结语
Python人工智能视语双联合交互臂的定义是:在Python环境下为开发者提供了更便捷快速的开发环境。
人机交互是让人工智能走向平民化的一大研究,其研究重要程度不可忽视。即人工智能的研究的最终目的不是局限于相关专业人员,也不是部份工厂,而是能够与普通的人民群众进行“友好相处”。
参考文献:
[1] 薛广月, 任雪梅. 基于任务空间的无标定视觉机械臂自适应跟踪控制[J]. 控制与决策, 2013, 28(7):5.
[2] 许建刚, 任萱, 包磊,等. 基于视觉机械臂的变电房高压柜旋转机构操作[J]. 高电压技术, 2018, 44(zk).
[3] 苏萌韬. 面向运动物品的视觉机械臂自动抓取方法与系统:, CN112518748A[P]. 2021.
[4] 谭盛江, 曹晖, 郭书超. 基于ROS视觉机械臂的目标抓取研究[J]. 2021.
[5] 薛广月, 任雪梅. 参数不确定的视觉机械臂自适应逆动力学跟踪控制[C]// 中国多智能体系统与控制会议. 中国人工智能学会, 2011.
[6] 张建民,许志辉,龙佳乐,陈富健,罗顺祺,罗鑫春,林根源,李鸿彬. 三维立体视觉机械臂智能抓取分类系统的开發[J]. 计算机工程与应用(235-240).
[7] 谭盛江, 曹晖, 郭书超. 基于ROS视觉机械臂的目标抓取研究[J]. 中国宽带, 2021(6):1.