行为识别技术在福利机构的安防监控中的探讨
2024-09-12张嘉铭
摘要:针对以大量人工为主,智能化不高的安防监控系统缺点,对智能行为识别技术在福利救助领域安防监控中的应用进行了研究,阐述了现阶段智能行为识别技术及发展,概述了智能行为识别技术的不足。通过对人工智能参与安防监控行为识别与检测的探讨、对现有研究的综述和分析,探讨了人工智能技术在安防视频监控领域对异常行为识别的应用前景和挑战。介绍人工智能下安防监控中的异常行为识别概念、方法和技术,并讨论了它们在福利机构的安防监控中的重要性。
关键词:人工智能安防监控行为识别深度学习
中图分类号:TP391
ExplorationofBehaviorRecognitionTechnologyinSecurityMonitoringforWelfareInstitutions
ZHANGJiaming
GuangzhouBeneficiaryResettlementCenter,Guangzhou,GuangdongProvince,510430China
Abstract:Inresponsetothedrawbacksofsecuritymonitoringsystemsthatrelyheavilyonmanualinterventionandlackhighintelligence,researchhasbeenconductedtosummarizetheapplicationofIntelligentBehaviorRecognitiontechnologyinsecuritymonitoringforwelfareassistance.ThispaperelucidatesthecurrentstageanddevelopmentofIntelligentBehaviorRecognitiontechnology,aswellasitsshortcomings.ByexploringtheparticipationofArtificialIntelligence(AI)inthebehaviorrecognitionanddetectionofsecuritymonitoring,reviewingandanalyzingexistingresearch,thispaperexplorestheprospectsandchallengesofapplyingAItechnologytoidentifyabnormalbehaviorsinthefieldofsecurityvideosurveillance.Theconcept,methods,andtechnologyofabnormalbehaviorrecognitioninsecuritymonitoringunderAIareintroduced,alongwithadiscussionoftheirimportanceinsecuritymonitoringwithinwelfareinstitutions.
KeyWords:AI;Securitymonitoring;Behaviorrecognition;Deeplearning
福利机构中的服务对象多数是弱势群体,如残疾人、患病老年人或儿童和精神病患者,而且存在接受服务群体数量基数大、自我照顾能力弱、人均所属工作人员少等特点,进而导致管理风险和被服务群体的人身安全风险同步上升。安防监控的应用对于福利机构有着举足轻重的地位。首先,安防监控可以确保被服务群体得到充分的保护,预防潜在的不法行为。其次,在发生争议时,安防监控可以作为关键的证据,有助于调查事件、澄清责任。最后,安防监控系统的智能功能可以帮助福利机构高效地管理受助群体,有效及时地预防事故的发生。随着20世纪后信息化技术的快速发展与迭代,结合郑烨[1]对人工智能应用前景和社会影响等研究,发现人工智能未来在安防监控领域扮演着越来越重要的角色。然而,现有的行为识别技术在现实应用中与理想预期仍存在较大的差距,需辅以大量人力紧盯屏幕监测实时画面,以避免智能系统无法检测或者遗漏的异常事件或突发事件;并且,安防监控系统具有初期投入建设成本高、进入门槛高、监控存储设备多、维护成本过高等情况。因此,如何利用更加智能的人工智能技术来有效解决这一问题成为一个重要的研究方向。本文旨在系统地研究和总结在人工智能技术支撑下的安防监控中的行为识别技术,为相关领域的研究者和从业人员提供参考和借鉴。
1 行为识别技术的定义及应用场景
行为识别是指利用技术手段(如传感器、摄像头等)对特定环境中发生的活动或行为进行分析和识别的过程,通过收集数据并利用算法分析,系统可以识别出不同的行为模式,从而帮助监控者或系统自动检测异常或特定的行为,有助于提高安全性、效率或者提供更好的服务。基于人工智能的安防监控行为识别技术具有广阔的应用前景。不仅可以应用于传统的视频监控领域,还可以扩展到智慧救助、智慧城市等多个领域。通过结合各类传感器和监控设备,实现对多种行为的识别和预警,提升安全管理的智能化水平。综上所述,基于人工智能的安防监控行为识别技术在提升安全防范能力、降低人工成本、提高监控效率等方面具有重要意义。随着技术的不断发展和应用场景的扩展,这一技术必将在安防领域发挥更加重要和广泛的作用。异常行为识别是指通过监控设备(如各类摄像头)对特定场所进行长时间监控,对监控画面中的人物、对象的姿态、动作或某些特定的运动轨迹进行分析与识别,判断当前人的行为特征,如持械斗殴、跌倒、攀爬、突发疾病等,从而实现对异常、危险行为的识别和报警。
- 现阶段行为识别技术的不足
现在的各类监控中多数已经有一定智能性的行为识别功能,但是它们在实际应用中仍然与人们的期望有较大的出入,主要有以下几方面。
2.1 误报率高
多数监控因为本身硬件所限,其行为识别功能只能基于简单规则与静态阈值,因此在实际应用中十分容易受到环境因素的干扰(如光线的明暗变化、场景的多样性、场景的动态性等)造成误报,从而大幅度降低了该能原设定的可靠性。
2.2 智能有限性
传统的行为识别主要依赖人工操作和各类预设定的规则,缺乏自主学习和适应性,不能有效地分析复杂场景,整体的反应能力相对较低。
2.3 实用性偏低
在实际使用中多数基于简单的场景,无法对复杂的场景进行深层次分析与推理,无法有效处理多模态信息,进而无法进一步满足用户的复杂多变需求。
2.4 投入人工成本高
在一些服务群体多的应用领域中,传统的行为识别功能因误报高、智能性有限等先天因素限制,为保证业务精准,需要投入大量的人员进入对应的监控岗位对系统的漏报、误报等情况进行识别处理。
2.5 缺乏实时响应
传统系统因硬件或算法负责度等因素从事件的发生到检测最后到反馈至监控中心(用户)存在一定的延迟,导致无法及时采取有效措施应对紧急事件。
- 行为识别技术的意义
行为识别在许多领域具有重要的应用价值,主要体现在以下几个方面:(1)行为识别可以帮助识别异常行为,如入侵、盗窃等,提供实时的监测和预警,保护人员和财产安全,从而帮助用户提升生活安全感;(2)通过及时发现各类意外事故,如意外跌倒、滑倒或某类疾病导致的异常行为,帮助用户快速地发现和定位异常行为,从而能够及时快速地做出反应和采取措施保障人员的生命和财产安全;(3)节省投入,提高整体识别率,行为识别功能在人工智能技术的加持下将变得更加智能、高效,可以大大地减少各个监控岗位的人力投入,更加及时、高效检测出异常行为。
- 发展历程和发展趋势
安防监控系统历经人工监控时代、闭路电视CCTV时代、数字化和网络化时代到现阶段的智能监控时代,而其中的行为识别技术也随着安防监控系统在数字化和网络化时代应运而生并与之一起发展演变。早期探索阶段,行为识别技术处于萌芽阶段,依赖基础的图像和特定的简单算法集中研究简单的动作识别并且十分依赖受限的环境和简单的背景;20世纪90年代,行为识别技术进入了特征工程和模式识别阶段,行为识别技术由研究单一动作开始转向更加复杂的场景和交互动,这阶段产生了隐马尔可夫等模型;21世纪初,行为识别技术开始使用统计学习的方法(如向量机)开始关注多人交互行为;现阶段,随着智能人工领域的快速发展,行为识别技术也随之使用深度学习、多模态学习等最新技术去综合识别更复杂、更抽象的行为。在福利机构中因其服务人群的特殊性,在日常照料中安防监控的作用日益凸显,而行为识别功能作为安防监控系统的重要功能在福利机构中也将有广阔的应用前景,大致发展趋势如下。
(1)早期预警和干预。利用行为识别技术来及早识别患者的异常行为模式,如焦虑、抑郁或攻击性行为,可以帮助护理人员及时介入,提供必要的支持和干预。
(2)非侵入性监测。发展更加非侵入性的监测方法,例如使用摄像头监控来分析患者的行为而不干扰他们的日常生活。这有助于维护患者的尊严和隐私。
(3)个性化护理和康复计划。利用行为数据来制订个性化的护理计划,通过分析患者的行为模式,可以更好地理解他们的需要,并制订针对性的治疗康复和护理计划。
(4)数据驱动的决策制定。使用行为识别技术收集的数据支持决策制定,如调整治疗方案、改进护理方法等。
(5)持续监测变化。持续监测患者的行为变化,并定期评估技术的有效性和对患者的影响,以确保提供最适合的护理。
5 识别过程
从现实场景映射到计算机系统,行为识别技术大致需经过数据的采集、清洗等步骤(如图1所示)让机器理解现实世界,理解人类的特定行为。在多数的福利机构中因为其服务的群体多数为老人、身体存在缺陷或者精神上存在一定问题的人群,数据源的采集渠道相对单一,多基于场所摄像头所录制的实时视频和图片。在自行采集的数据基础上,经过清洗步骤把不相关的、无意义、画面质量较差的数据剔除,然后进一步对得到的优质特征数据,再通过使用速度快、准确率高且鲁棒性强的行为识别模型进行分类归集并识别,最后将用户关注的特定行为及时在系统上呈现给用户。
6 模型的讨论及分析
6.1 基于手工特征的方法
基于手工特征的方法配合传统的机器学习是行为识别中常用的一种方法。该方法利用图像学和数学(如Bobick和Davis提出的MEI和MHI理论、Klaser提出的3DHOG等)来提取识别特征,建立特征库并结合向量机SVM、K近邻法等进而表达不同的行为模型和场景模型,使用较简单的算法(如Chakraborty提出的Harris-Laplace算法、Schimid提出的iDT算法等)来判断输入视频的特征是否符合模型的分布情况。如果特征与模型分布相差较大,则判定为异常。该方法在实现上相对简单,能在有限的投入下,使用有限的设备即可使用,但是它十分依赖特征数据集要求数据的分布假设较为严格,同时需要识别目标须精准地出现在视频中的特定位置,适用于背景单一并不复杂、光线良好且识别目标数量较少的场景,而对于一些背景复杂、画面外观频繁变化或者识别目标与背景具有高相识度等复杂场景,而识别准确性则大打折扣不如人意。在运行响应方面,该方法需要大量的人工提取的特征数据进行训练,运行计算量大,造成整体运行速度较慢,识别响应慢。而在特征库数据方面也同样存在瑕疵,该手工提出生成特征的行为识别技术需大量依赖特征提取人员的提取经验和知识、同时因需人工参与造成特征数据更新较慢、数据组成较单一,无法识别某些罕见行为,具有天然的局限性。
6.2 基于深度学习的方法
基于深度学习的方法是行为识别中的一种较新的技术。该方法将视频逐帧分解,通过翻转、裁剪等手段增加数据多样性,然后调整图像大小、规格规范数据;接着通过利用特征提取算法(如卷积神经网络CNN(ConvolutionalNeuralNetworks)、循环神经网络RNN(RecurrentNeuralNetwork)、双流长短时记忆网络LSTM[2](LongShort-TermMemory)或门控循环单元GRU(GatedRecurrentUnit)等)构建特征数据集,使用构建并标记好的行为特征数据集训练深度神经网络模型,配合利用各种正则化技术(如dropout)和优化算法-如适应性矩估计Adam(adaptivemomentestimation)或随机梯度下降SGD(StochasticGradientDescent)来优化模型,防止模型过拟合;然后使用三维卷积神经网络3DCNN(3DConvolutionalNeuralNetworks),或双流卷积神经网络(Two-StreamNetworks)进行模型融合;最后将提取到的行为特征输入分类器(如Softmax)以自动学习和识别视频中的正常行为和异常行为[3]。深度学习模型可以通过多层网络结构和大量的训练数据,提取视频中的复杂特征实现高精度的行为检测。使用深度学习方法的行为识别能技术能提取分析背景中的三维结构信息和时空顺序信息并能较精准地获取关键区域信息,对背景光照具有很好的鲁棒性,具有更快、更高速地实时处理和分析大量数据的能力,因此对近距离无遮挡的明暗复杂场景有较好的适用性。同时,该技术能在不断增加训练数据的情况下自我学习,不断提高识别准确率,对新出现的各种环境、背景和行为具有较高的适用性。使用基于深度学习的方法的行为识别技术依旧不可避免地存在一定的局限性,在前端的信息采集工具方面需使用专业的成本较高的视频采集传感器,而后端硬件方面因需实时处理海量的数据,对计算量有很高的要求,需要大量的专业硬件作为支撑。在技术层面,该技术虽然能提取三维和时空信息,但是无法提取分析颜色、纹理等特征信息,无法对远距离或受遮挡的识别物进行精准识别,造成识别精度仍需解决的问题。陈煜平等人[4]指出,对较好的深度学习方法结果识别精度也只能达到74.53%。同时邬开俊等人[5]提出,现有模型存在模型迁移性差、无法适应更换应用场景等缺陷。
6.3 基于数据融合多模态的方法
基于数据融合多模态的方法是行为识别中的一种现有研究方向的技术。因为单一模态因自身的局限性或多或少存在一些问题,无法很好高效地对各种行为进行分析识别,因此为解决上述问题提出数据融合多模态的方法,以取长补短弥补缺点,以便对行为有更精准的描述。数据融合多模态方法需经过多模态数据输入、数据同步和对齐、特征提取和融合、多模态特征融合、模型训练、迁移学习、时序建模、模型压缩等步骤以实现行为识别功能。其中数据来源于多模态(如在福利机构的安防监控应用中数据多来源于监控摄像头的视频、音频和红外序列等),特征融合则有使用卷积神经网络(CNN)等算法提取视觉RGB图像特征与深度学习互补融合、红外序列与深度学习融合等,方便后续使用类似He等人[6]提出的技术对堆叠的视频帧构建完整的全局时序依赖或TPN网络空间语义[7]。数据融合多模态的方法和上述两种方法相比较,拥有以下的优点。
(1)不同模态提供了不同类型的信息,进而得到更加丰富和全面的场景描述有助于更准确地捕捉到各种行为。
(2)对不同环境和数据变化具有更强的适应性并拥有很好的鲁棒性。
(3)人类活动往往发生在复杂多变的环境中,数据融合多模态方法可以更好地处理这种复杂性,较大幅度减轻外在因素(如部分遮挡、光线变化、动态背景等)的影响。
(4)不同模态的组合融合给行为识别技术创造了拥有场景上下文的条件,从而进一步更加全面地理解行为的语境,提高识别的准确性。
- 在福利机构行为识别的解决方案
- 系统架构
为解决前文所述目前安防监控中行为识别功能所存在的难点,依托福利机构中的安防系统,提出对行为识别功能采用分布式-集中供给调度模式的全智能化开放体系架构(如图2)。该系统体系大致分为展示层、前端层、预处理层、网关层和服务层。其中展示层表示的是行为识别后的结果给哪些服务群体进行展示,辅助他们及时并正确地处理和应对各种突发事件。前端层则分为数据展示和数据采集两部分。数据展示是把行为识别后的详细结果在各类的显示终端上进行展示(如视频展示终端、预警终端等),其中行为识别后的详细结果应显示具体的事件发生因素、详细的用户信息和处置建议,辅助工作人员第一时间快速了解现场情况并及时做出正确的决策处理突发事件。数据采集则是由部署在机构场所内的视频监控设备(如3D深度摄像头、红外摄像头等)实时拍摄把数据数字化后传回机房后端设备,再经由本地高性能感知和理解智能化设备即预处理层完成特征提取、特征标识、时序分析等初步工作。然后经网关层把预处理数据快速传递到远端服务层。上述的预处理数据数量庞大且实时性有一定的高要求,网关层需由万兆以上交换机、光缆专线等高速设备或通路组成。其次,服务层则是依托远端的算力中心集群和模型训练中心集群,调用合适的模型对上传特征数据进行快速实时识别,最后把识别结果通过网络反馈至前端层的数据显示。
7.2 系统优势探讨
本系统采用类似分布式SOA架构,把整个系统分为本地部署和远程服务两部分,整体具有以下优势。
7.2.1 准入门槛低,整体维护难度低
系统的本地部署主要基于安防监控的常规设备(如摄像头、EVS存储等)外辅以少量的高性能感知和理解智能化设备对实时视频数据进行预处理,不需要额外投入巨额成本建设和维护大量人工智能硬件设备,投入最低限度的硬件设备就可以建成并应用。
7.2.2 行业共享性强,利于提升识别率
行为识别的基础是训练数据集,使用集群中心的方式利于同行业的数据分享以便集中多个机构的数据,增加训练数据的量级,提高模型的智能性,使得模型对不同场景、不同行为有更优秀的适应性。
7.2.3 资源扩展性强,响应速度高
本系统架构具有良好的资源扩展性,可根据机构具体运作需求灵活动态地扩展计算资源或者调度相应的识别模型,当需要使用更优秀的识别模型或者更强的算力时,可以简单地切换集群节点,无须变动系统架构。在识别复杂场景需要大量的算力时可灵活使用分布式计算的方式,灵活调配算力资源,加快计算响应时间,保证识别速度无感化。
7.2.4 可灵活定制,具有良好的容错性和可用性
可以根据机构自身业务需求和场景类型进行定制化配置,选用实用度高的识别模型与算力规模,同时具有本地部署不可比拟的高容错性和高可用性,即便某些节点出现故障,也不会影响整体识别过程,可以保障识别功能实时正常运行。
7.3 挑战与问题
主要是指隐私与安全问题。行为识别在安防监控中的应用涉及用户的隐私和安全问题。安防监控涉及个人和机构的隐私,如何保护隐私不被滥用和侵犯是行为识别技术在福利机构安防监控中需要解决的问题之一。此外,安防监控系统因行为识别功能需与互联网互联,本身也面临着被黑客攻击和篡改的风险,如何保障系统的安全性也是一个挑战。
8 结语
通过对福利机构安防监控中的行为识别技术的全面分析,本文指出了现有行为识别功能在该领域的不足、分析当前常用模型的实用性和提出了对应的未来架构设想。未来的研究应重点关注数据融合多模态的探索、隐私与安全问题以及技术复杂性与可靠性问题。
参考文献
[1]郑烨,任牡丹,FOUNTAINJE.基于文献计量的中外人工智能政策研究现状及启示[J].情报杂志,2021,40(1):48-55.
[2]揭志浩,曾明如,周鑫恒,等.结合Attentiom-ConvL-STM的双流卷积行为识别[J].小型微型计算机系统,2021,42(2):405-408.
[3]陆卫忠,宋正伟,吴宏杰,等.基于深度学习的人体行为检测方法研究综述[J].计算机工程与科学,2021(12):2206-2215.
[4]陈煜平,邱卫根.基于CNN/LSTM和稀疏下采样的人体行为识别[J].计算机工程与设计,2019,40(5):1445-1450.
[5]邬开俊,黄涛,王迪聪,等.视频异常检测技术研究进展[J].计算机科学与探索,2022,16(3):529-540.
[6]HEDL,ZHOUZC,GANCA,etal.StNet:LocalandGlobalSpatial-TemporalModelingforActionRecognition[J].ProceedingsoftheAAAIConferenceonArtificialIntelligence,2019,33(1):8401-8408.
[7]YANGCY,XUYH,SHIJP,etal.TemporalPyramidNetworkforActionRecognition[C]//2020IEEE/CVFConferenceonComputerVisionandPatternRecognition.2020:588-597.