基于图像识别的公共图书馆座位检测系统研究

2017-03-01上海图书馆朱云琪

电子世界 2017年3期

上海图书馆朱云琪蒋玥张轶

上海图书馆朱云琪蒋玥张轶

随着公共图书馆的发展与现实文化需求的提高，提供馆内座位信息是具有现实意义的基本服务课题。但在公共图书馆的信息服务上作进一步的拓展需要有良好的技术支撑，本文即在此基础上，提出了一种基于图像识别技术的图书馆座位占用检测算法，该算法以帧差运动检测技术为基础，利用肤色、发色的色彩模型对运动识别图像进行补足；可以依据现场情况自适应调整判断；并设计了能在较大尺度时间内减少错检、漏检情况发生的判定流程。经过现场实验，在光照均匀遮挡不严重的情况下，该方法对阅览室座位占用情况的识别准确率高于采用同等参数的帧差识别算法，可以运用在日常工作中。

图像识别；运动目标检测；色彩模型；图书馆服务

0 引言

上海市正逐步加快向具有全球影响力的科技创新中心进军，公共图书馆随之而来需要承担的社会责任也越来越重。为了满足日益增长的服务需求，各大公共图书馆都建立了图书资料的信息化管理制度，但显然在公共服务中重要的一块——如何调配座位资源，仍然有很大的进步空间。在实际工作中，会时常听到读者抱怨进入阅览室后才发现找不到座，这不仅对阅读体验有很大的损害，也造成了大量读者盲目地在各个阅览室穿行，使得环境质量的进一步下降。由于图书馆的座位资源在时间与空间尺度上分布不均，一般为了疏导读者，会采用人工方法进行调配，但这既耗费人力资源，也无法反馈实时的座位情况。所以，有必要在控制成本的同时，实时准确的自动识别检测阅览室的座位占用情况，使得图书馆座位资源得到有效充分地利用。

现有的公共图书馆基本都能被视频监控所覆盖，而随着图像识别技术的成熟，充分利用现有设施，对馆内座位资源进行识别检测是一项十分具有意义的课题。事实上，已经有不少图书馆采用了座位资源自动检测技术，例如苏州大学图书馆利用校园卡刷卡入座，并引入人脸匹配技术与视频监控技术来确定人员入座情况[1]。

座位占用检测的目标是人，传统的行人检测方法，对于运动中的行人，人头是最容易被识别的特征，利用肤色、发色或者轮廓信息快速确定人头可以比较好的达到运动检测效果[2][3]。然而座位占用检测的条件与目的与传统行人检测技术又不完全相同：阅览室的监控呈斜45至60度角，只有头部基本没受到遮罩，但头发与皮肤特征都不完整；人员运动幅度较小，严格按照书桌位置摆放；干扰物多，需要去除大量颜色、形状接近的物体；只关注座位的占用情况；对检测实时性的要求较高，判断机制要简便。所以座位占用检测不单单具有部分行人运动检测的特点，还兼具交通停车检测的特点。

运用在交通事件检测的图像识别算法，一般有光流法、形态学边缘检测法以及差分法。光流法利用像素灰度变化与实际物体结构的联系建立光流场来检测运动情况，其检测精度较高，但受限与复杂程度与特殊设备要求，多运用在诸如手势识别这样需要高精度、低用量的场合[4]。形态学边缘检测法同样计算复杂度较高。而差分法又分为背景差分和帧差分，背景差分需要预先设定背景，有利用各类数学模型提取背景图层的，例如采用混合高斯模型计算运动概率检测[5]，也有预先拍摄背景直接做差分的，但对拍摄要求比较高[6]；帧差法利用两帧图像间的区别，提取变化较大的区域作为运动目标，常见的有5帧和3帧帧差法，5帧帧差法较为复杂但精度更高。有实验认为两者在交通检测时效果差距不大，帧差法高度依赖于采样频率的选取，而背景差分法则依赖于背景的更新与阈值的确定[7]。在公共图书馆的阅览室内，由于环境本身比较复杂，桌椅等一系列座位背景的物体并不是固定不动的，而光照变化较小，本文吸纳两种方法的优点，设定当前时间帧为基准背景帧，计算当前帧与之前4帧帧差已识别运动图像。

1 人头识别算法整体框架

根据停车检测技术与阅览室的一些特点，本文提出了一种基于多特征补足的帧差座位占用检测算法，尽可能地利用头发、皮肤与运动特征，对座位占用情况作快速检测。传统的帧差法提取运动图像虽然可以适应各种光照要求，检测快速，但容易造成大量的空洞、重影等影响检测效果的问题，尤其是在普遍运动幅度较小的阅览室内，更容易产生漏检情况发生。而用肤色、发色模型，可以在人物关键位置补充图像，增加可识别性。发色和肤色模型对不同人群都可适用，同时也降低了因室内环境变化而造成的错检情况。其算法流程如图：

图1.1 算法流程图

2 关键技术

2.1 人头区域图像补足

帧差法检测运动图像的时候，容易造成空洞、重影和虚假边缘的出现。而人脸部分由于相邻灰度值接近，且在座位上的运动幅度较小，这种空洞与不连续现象在人头附近尤为明显。为了弥补这个缺陷，本文需要先研究人头颜色模型特征，利用人头发色与肤色对人头区域图像二值化，以填补这些空洞区域的像素。

图2.1 头部二值图像呈明显残缺

颜色空间是人为划分的自然界颜色属性的空间坐标系，实质是坐标系统和子空间的阐述。位于系统的每种颜色都有单个点表示。最常见的RGB空间即是所有颜色空间的基础。RGB（红绿蓝）空间是依据人眼识别的颜色定义出的空间，可表示大部分颜色。此外比较常用的颜色空间有YCbCr、HSV以及YUV等模型。

2.1.1 发色识别

由于人的发色大体偏深，区分度较小，而RGB空间对于近似颜色之间的辨识能力有限，本文在发色识别上选用HSV空间来对图像进行二值化处理。

HSV颜色空间也是比较常用的颜色空间，其中H代表色调，S代表饱和度，V代表亮度。通过实验对比，V子空间的图像对发色比较敏感，且值域在0、1之间，能够比较好的反映发色与背景之间的差异[8]。

已知min为r、g、b分量中最小的值，max为r、g、b分量中最大的值。按照式(2.1)～式(2.3)转换RGB图像，并在V分量上以0.2为阈值转换为二值图，如图2.2所示。

图2.2 v分量上的二值图

2.1.2 肤色识别

肤色也是人头识别中非常重要的特征，而且肤色更具有代表性。头发可能会受到遮罩，或者白发、秃发的影响，但肤色不会。但是肤色本身受到光照的影响就大，通过统计模型的识别算法很难覆盖所有的位置的情况，尤其是在复杂的公共场所。

文献[9]强调了采用多种子空间同时分割判定图像的重要性，也就是说在单一的V空间内进行二值化处理肤色效果并不好。作者根据经验引入了一种简单的根据RGB空间的判断方法，其判断公式如式(2.4)所示。

R＞95 And G＞40 And B＞20 And R＞G And R＞B And Max(R,G,B)-Min(R,G,B)＞15 And

虽然结果中含有其他非皮肤区域，但经过腐蚀膨胀、填充空洞之后，如图2.3所示，可以发现相比使用CbCr二维检测，肤色结果图受到背景干扰更少。

图2.3 肤色识别判断方式比较

2.2 运动识别

对于座位上读者的运动方式，其运动幅度相较路上行走要小得多，所以采用传统的差分法结果必然是拥有大量空洞，对检测结果造成大量干扰。本文在传统的帧差运动检测法的基础上加以改进，5秒1帧，利用5帧进行差分计算。

现将图像灰度化后，分别进行均值滤波、灰度均衡化处理，现假设以当前帧图像为基准帧，之前4帧分别为：

再对D04、D03、D02、D01做膨胀处理，膨胀因子取3*3，可得到。经过二值化处理后，先与再或，即：

通过再一次膨胀以及填充内部图像后得到最终的差分运动图像。这样做可以很好的提取各个图像中相同的部分，并减少微弱运动条件所造成的干扰。

将灰度差分图像二值化是另外一个难点。本文借助大津阈值（OSTU）对灰度图进行动态阈值调整。大津阈值作为比较常见的图像分割技术，也被称为最大类间方差法，特点即简单快速有效。其算法过程是[10]：对于一副最大像素值为N的灰度图像，记k为分割阈值，背景像素点数占全图像素数的比例为，平均灰度为；运动目标的前景像素点数占比为，平均灰度为。图像的总平均灰度为：

类间方差可定义为：

2.3 座位占用检测

为减少计算压力，达到实时性的目标，本文截取图像中座位所在的固定区域做占用检测。由于是固定摄像头拍摄，在所拍到的照片图像中分割出相应座位的小窗口，考虑到远近透视效应，窗口按照由近及远的顺序按行从大到小切割。在此基础上，该算法步骤如下：

第一步：对当前帧的图像做预处理（参考2.2），并分割出每个固定座位的截取图像；

第二步：以该帧图像为背景，将图像灰度化并与过去4帧差分计算，利用OSTU确定分割阈值，分割出运动图像，若运动图像的前景像素数目占比，则不再进行下一步，其中a监测对象像素数，A为截取的座位图像总像素数；

第三步：根据发色和肤色模型，分割出该帧对应的肤色与发色二值图，然后对二值图中面积较小的连通区域进行排除，减少背景噪声。最后将运动差分图像与发色、肤色二值图取“或”，完成对运动图像的补足；

第四步：计算占空比情况，由于透视现象，前方座位上的人员会对后方座位的占用判定造成干扰，所以在算法所得处的运动像素会偏多，那么就需要适当地提高占空比阈值，按照桌椅的远近分别设定阈值；

第五步：为了减少结果在短时间内反复跳变，最终的显示结果需要比对之前2帧的状态以作优化，这样的情况有如下两种：

a.当前帧与前两帧结果不同，则将当前帧对内设定为结果待定，对外显示结果不变，即仍与之前帧的算法结果一致；

b.当前帧只与前两帧结果中的一个相同，则将当前帧设定为这三个结果中占多数的结果，即采用当前算法结果。

图2.4 补足利用背景帧差法得到的二值图像

3 实验结果分析

本次实验场所设置在上海图书馆社科阅览室，采用固定机位相机拍摄的方法，对阅览室内座位情况进行采集，并且把研究重点放在了如图3.1标注的两组桌子上，在本文实验条件下，将窗口分辨率大致设定为450*350、350*250、300*200、250*150，前后桌椅的阈值分别为0.4、0.5。采集阶段5秒拍摄一帧，持续5分钟，最后共计采集60*3张图像。所有算法都在matlab2015b环境下编译并调试。

图4.1 现场实验环境

参考交通违章检测算法，本文提出了针对座位占用检测的评价依据有：

作为参照，本文采用传统的背景差分检测算法对座位占用情况作比较。该背景差分算法同样采取OSTU动态阈值，但不作运动图像的补足。其结果如下：

表3.1 实验结果

从实验结果来看，单纯使用帧差分方法检测座位占用情况，其错检率和识别率都显著差与本文使用的算法，尤其在识别率上，一旦读者运动幅度偏小，又没有色彩模型做支撑，占空比的判定阈值需要设定得非常低，这就意味着动、静情况区分度小，难以识别运动情况。另一方面由于在实验过程中发现后方图像容易被前方人员物体遮罩，造成前方的运动状态也计入后方中去，所以对待两桌座位的判定时需要采取不用的阈值判定，后方采用更大的阈值以便在大的时间尺度上平衡前方运动的影响。实验结果表明，本文提出的这种算法，相较固定阈值拥有更好的实验结果，尤其在错检率上，大幅度降低了前方的干扰。

4 结论

公共图书馆的服务目标永远是尽可能地向读者提供更多的便利信息。为了满足这一现实需求，针对图书馆座位资源紧张这一问题，本文借鉴停车检测的思路，提出了利用发色、肤色模型补足运动差分图像的座位占用检测算法，利用当前帧与前4帧图像做动态的背景差分运算，并利用OSTU自适应调整阈值，得到微弱运动条件下的运动图像。算法吸取了背景差分和帧差分的优点，有效减少环境对检测结果的影响，加强对运动区域的捕捉。最后通过三帧结果的比对，调整结果显示策略，避免短时间内的结果反复跳变。通过在上海图书馆的实验，实时性上能够完全满足查询需求，不需要额外设备，同时通过调节窗口分辨率与设定阈值以适应不同复杂环境的需求，证明算法能够在现实中得到推广。与单纯依靠差分检测算法相比，判断座位占用情况时的识别率和错检率都更为优秀。本算法作为公共图书馆座位资源检测系统的支撑，也能让图书馆管理人员能够更为有效的进行座位和人员的调配，提升服务品质。

[1]徐海东.基于人脸识别的座位管理系统的设计与实现[J].科技情报开发与经济,2015,25(20):140-141.

[2]高春霞,董宝田,王爱丽.基于人头颜色空间和轮廓信息的行人检测方法研究[J].交通运输系统工程与信息,2015,15(4):70-77.

[3]何扬名,戴曙光.利用轮廓特征进行人头识别的方法[J].计算机工程与应用,2010,46(29):164-166.

[4]PremaratneP,AjazS,PremaratneM.Hand gesture tracking and recognition system using Lucas-Kanade algorithms for control of consumer electronics[J]. Neurocomputing,2013,116: 242-249.

[5]王殿海,胡宏宇,李志慧,曲昭伟.违章停车检测与识别算法[J].吉林大学学报(工学版),2010,40(1):42-46.

[6]张贝贝,武奇生.基于视频的高速公路违章停车实时检测算法[J].电子科技,2011,24(9).

[7]孙欢,尚绪凤,朱赵龙,张贺泉.交通监控系统中帧差法与背景差分法优劣分析[J].电子科技,2012,25(10):1-4.

[8]吴华宇.基于监控视频的高校教室占用率统计系统[D].沈阳:沈阳工业大学,2015.

[9]Peer P,KovacJ,SolinaF.Human Skin Colour Clustering for Face Detection[J].Eurocon’03 Proceedings of the IEEE Region Computer As A Tool,2003,2:144-148.

[10]Ohtsu N.A Threshold Selection Method from Gray-Level Histograms[J].IEEE Transactions on Systems Man & Cybernetics,1979,9(1):62-66.

朱云琪（1990—），江苏南通人，硕士，现就职于上海图书馆上海科学技术情报研究所。