基于双目立体视觉的舌重建*

2016-10-21郭丹王学民王瑞云孙飞陆小左周鹏

传感技术学报 2016年9期

郭丹，王学民，2，王瑞云，孙飞，陆小左，周鹏，2*

（1.天津大学精密仪器与光电子工程学院，天津300072；2.天津市生物医学检测技术与仪器重点实验室，天津300072；3.天津中医药大学中医工程学院，天津300193）

基于双目立体视觉的舌重建*

郭丹1，王学民1，2，王瑞云1，孙飞1，陆小左3，周鹏1，2*

舌像蕴含着大量的人体生理病理信息，是中医四诊的重要内容之一。当前中医客观化舌诊研究基于二维舌图像，从中可得到颜色、形态等多种信息，但其不能反映点刺、裂痕等细节信息。为了得到全面的生理信息，本文提出一种基于双目立体视觉的三维舌表面重建方法，适用于具有动态特性的真实舌，达到了0.134 2 mm的分辨率。此方法突破了现有以医学诊断为目的的舌表面重建方法动态特性与分辨率不兼得的瓶颈。全面的生理信息为疾病的正确诊断和早期发现提供了保障，同时可解决二维舌像由于深度信息缺失而造成的诸多技术难题，如舌体分割困难等。

中医舌诊；双目立体视觉；三维重建；图像分割

EEACC：7230doi：10.3969/j.issn.1004-1699.2016.09.003

随着医学的现代化和全球化，中医客观化诊断技术已经在标准化和自动化方面得到快速发展。当前的客观化舌诊基于二维舌图像，可得到颜色、纹理、形态、润燥等生理信息，在一定程度上能反映病理情况，如台湾国立彰化师范大学的Lun-chien Lo［1］等基于二维舌像发现早期乳腺癌患者与正常人的舌特征有显著差异。由于深度信息的缺失，也造成诸多技术难题，如作为二维舌像分析基础的舌体分割［2］困难，不能反映舌表面的齿痕、点刺、裂痕等细节信息，极大的约束了舌像信息的全面性，妨碍了医生的正确诊断。而三维舌像蕴含了真实舌的所有信息，全面的生理信息为疾病的正确诊断和早期发现提供了保障，同时可解决二维舌像上的技术难题，如利用深度信息即可完成舌体分割。此外建立三维舌模型对多个领域都有极大的益处［3］，如掌握人类发音过程中舌头的形变规律对于头颈外科医生以及语言学家十分重要，此外在生物力学、人机交互、计算机辅助语言教学、电影制作等方面都将发挥极大的作用。因此，对于三维舌像的研究是十分必要且有价值的，已经成为当今舌诊客观化的研究热点。本文基于双目立体视觉实现了三维舌表面重建。

因为舌的隐蔽性，对于舌像三维重建的研究始于20世纪80年代，起步晚研究少［4］。研究者的侧重点各有不同。一部分研究者为探究舌形状与语言发音、表情的关系，因此研究重点在于基于模型的参数化舌模型建立，而另一部分研究者出发点是作为中医舌诊的医学标准化诊断，注重于形状、颜色及纹理，因此研究重点在于基于图像或图像与模型相结合的舌重建。先后有国外学者Andrew J Lundberg［5］、Engwall O［6］，用超声图像、MRI图像来重建舌形状。JiyongMa［7］、Mihai Daniel Ilie［8］利用三维建模软件并参考舌体解剖学信息建立舌模型，前者在在中矢面上手动选择12个控制点来控制舌形状变化，后者根据几何特征选择五个控制点，均可实现不同字母及表情的舌形状。Zhixiang Chen［9］在Deng的基础上提出新型肌肉控制舌模型，将舌肌肉分为内在和外在肌肉，分别控制形变和运动，对其分别建模，可实现自然舌运动及一些基本语言下的舌形状，例如舌体卷曲。未来研究方向是模型总控制机制。Chen Jiang［3］用三维MRI图像提供的医学数据重建舌几何模型，用有限元法实现舌的生物力学，得到了较好的效果。以上研究在可视化语言应用领域得到良好的效果，但作为医学诊断依据来说缺乏舌表面的细节信息，且需要精确复杂的解剖学信息。国内的刘志［10］提出基于多视点图像和有限元法的舌重建，满足真实舌的动态特性但不能分辨舌表面的齿痕等细微结构。吕慧娟［4］等提出基于光度立体法［11］的舌表面重建，能分辨舌表面细微结构，但是实验基础是基于舌模型。光度立体法通过使用不同的光源照射同一个物体并且在不改变拍照相对位置的情况下获得多张光照图，然后通过对这多个光照图联立亮度方程求解出物体的表面形状，其适用于静态物体，而真实舌的不自主颤动频率较高，此方法在真实舌应用方面遇到阻碍。因此舌表面重建的方法要求动态性和高精度同时满足。适用于动态物体重建的方法有面结构光法［12］和立体视觉法［13］，面结构光法需向物体表面投射编码结构光，通过解码得到匹配点对，应用对象多为表面无颜色的物体，而舌颜色为红，影响解码精度。

双目立体视觉法只需采集某一时刻的一对舌图像即可三维重建，1/200 s的快门速度大于舌体抖动的速度，在左右相机同时拍摄瞬间舌体静止，满足舌重建的动态特性。双目立体视觉法的视差匹配可达到1/16或更高的亚像素精度，本文视差精确到0.1个像素时最小分辨率为0.134 2 mm，成人舌表面细微结构尺寸为0.5 mm～2.5 mm［4］，因此本文选择同时满足舌重建动态特性和高精度要求的双目立体视觉法。

1　舌重建方法

基于双目立体视觉的舌重建工作整体流程图如图1所示。

图1　重建方法整体流程图

1.1数据采集

舌像采集系统如图2所示。由两部平行放置的佳能600D相机和投影仪组成。增加相机基线长度可提高场景点深度计算精度但也会造成遮挡［14-16］，因此在不遮挡的情况下并考虑相机的实际尺寸，取基线长度为13 cm，场景点与相机中心距离为1 m。55 mm焦距的相机可采集真彩色、高分辨率的舌图像，同时其高帧速率和可调曝光时间解决了舌颤动［10］问题。舌表面属于立体视觉中难处理的弱纹理区域且颜色相近，有效边缘仅有舌体边缘，因此利用投影仪产生黑白相间的条纹来增加舌表面的特征点，同时充当照明设备。投影仪为纽曼PH06A微型投影仪，分辨率1 280像素×800×像素，最小投影距离18 cm。舌表面条纹的稠密和投影仪与舌的距离及投影图中条纹稠密有关，投影仪离舌近则亮度强造成舌表面平滑，距离远则舌表面条纹清晰度差，因此经实验投影仪与舌表面距离为60 cm时效果最佳。此时黑条纹约占8个像素，条纹间距为16个像素。

图2　舌像采集系统

1.2图像预处理

相机同步采集标定板图像和舌像，利用Matlab中的StereoCameraCalibration工具箱标定［17］双目立体视觉系统。因相机安装及其本身组装误差，其光心不是完全平行，因此根据标定所得参数对图像对基线校正。为了保证舌体部分边缘提取及匹配的准确性，截取舌体部分如图3所示，后续工作基于此图像对。因为舌表面细节结构尺寸小，不易观察，因此用红圈标示经中医师确认的舌表面点刺，图6、图7同理，方便观察对比。

图3　舌体图像对

Canny［18］算子是性能优良的边缘检测技术，边缘检测结果如图4所示，算法步骤为：①图像灰度化并高斯滤波平滑图像。②一阶偏导有限差分计算梯度幅值和方向。③非极大值抑制处理梯度幅值。④双阈值算法检测及连接边缘。

图4　舌体边缘

1.3立体匹配

由于双眼视轴间距的存在，同一场景点在左右视网膜上所形成的图像存在位置差即视差，是大脑感知物体深度的决定性信息。双目立体视觉［13］即是基于此原理，用两相机代替人眼，寻找空间一点在两幅图像上的对应点，利用视差测距法［13］恢复物体表面深度信息。由此可知立体匹配是立体视觉的重点所在。经过多年的发展，涌现出多种立体匹配方法。结合舌表面纹理少、深度变化连续性强的特点，本文采用线性种子点增长算法［20］。

1.3.1双目立体视觉

左右图对上的Pl（xl，yl）和Pr（xr，yr）为同一场景点P（x，y，z）的投影点，它们的坐标关系为：d=xl-xr即为对应点的视差。利用视差恢复场景点三维坐标公式如式（2）所示：

其中Tx为两相机光心间的基线长度，f为相机焦距，可由标定步骤得到。

1.3.2改进的线性种子点增长算法

种子点增长算法由Otto和Chau［19］提出，其基本思想是在视差空间中从一组初始种子点出发，在邻近区域中按照灰度相似性测度进行增长直到违反匹配唯一性约束。匹配点相似性准则采用最小平方差算法［20］SSD（Sum of Squared Difference），经实验增大支持窗没有提高匹配准确性且增大了计算量，因此窗大小设为3×3。

为了解决抗噪性问题，本文首次采用基于pδ（n）［21］函数和SSD的相似性测度函数。pδ（n）函数的数学表达式为：

本文用SSD代替n得到新的立体匹配相似性测度函数pδ（SSD），δ选择为2。经实验效果优于SSD算法。图4所示的舌表面边缘特征点稀疏且特征明显，因此首先匹配边缘特征点并作为线性增长的初始种子点。初始种子点匹配时，因为边缘特征点性质相似，所以出现错误点的匹配相似性高于正确点的相似性。在此加入区域限制，得到左图待匹配点与其最左边缘的距离，在右图距最左边缘的相应距离范围内寻找匹配点，大大提高了匹配准确性。然后选择具有准确可靠视差的边缘特征点作为初始种子点，以初始种子点的视差d作为区域生长的基本视差，因舌表面不是绝对平滑，含有舌乳头、齿痕等细微结构，因此在下一步增长过程中扩充匹配视差范围，人类能够匹配的视差梯度为2，因此将区域生长的视差扩至d-2至d+2，分别计算五个视差下的匹配相似性，在外基线、单调性等约束下，采用胜者为王算法确定最终的匹配点对及其视差，再以新得到的匹配点作为种子点在水平扫描线上进行生长，直到遇到下一个初始种子点，再以下一对初始种子点开始增长，从而得到整个舌区域的视差图。这种舌表面多个初始种子点有效防止错误匹配点的传播。

本文立体匹配算法步骤为：①输入经过预处理的图像，截取舌体区域。②Canny算法提取舌体区域边缘特征。③在唯一性、单调性等约束下根据pδ（SSD）匹配特征点。④从初始种子点矩阵中，按顺序选择一对种子点，首先判断种子点右侧的点是否为初始种子点，如果不是种子点，则计算匹配相似性并判断是否满足匹配条件。如果是，则选择下一对种子点。⑤图像对稠密匹配完成。

1.4感兴趣区域提取

从图3可知截取的舌体部分还包含部分嘴角，其不属于感兴趣区域因此需要去除。伸舌状态下舌表面和嘴角不在同一平面，其视差有一定差异，因此对视差图横向求导，导数最大的两个位置就是舌体左右边缘，图5中红点即是边缘点，将视差图中左右边缘以外的视差置零，即可去除嘴角部分。

图5　舌体边缘标示

为了获得较平滑的深度图，因此在重建前对视差图滤波。本文选择具有高效的边缘保持-增强且适用于灰度图像的双边滤波算法［22］。双边滤波将高斯权系数优化为高斯函数与图像亮度卷积，即双边滤波算法的权系数由空间邻近度因子和亮度相似性因子组成，如式（5）～式（8），能在保持边缘的同时平滑去除高斯噪声。

其中g（x，y）为噪声图像，f（x，y）为去噪后图像。

2　实验结果

本文实验被试者为天津大学在校生，被试者舌表面有经中医师确认的点刺、齿痕。图像分辨率为1 920像素×1 280像素，快门速度1/200 s。首先采集超过20张不同角度的标定板图像，根据张正友［16］法标定相机，标定结果误差小于一个像素。然后在黑暗条件下，向指定位置的被试者投影条纹光，并采集图像。根据标定结果对匹配图像对进行基线校正。据本文算法所得点云图如图6所示，通过粘贴真实舌纹理到三维点云，使其更具真实感，舌重建过程只需几十秒。

图6　多种舌体三维点云图

本系统视差大小精确到0.1像素，佳能600D的感光器件尺寸为22.3 mm×14.9 mm，图像分辨率为1 920像素×1 280像素，基线T为13.745 5 cm，焦距f为4.652 7 cm。根据公式2，计算得到最小分辨率为0.134 2 mm，成人舌表面细微结构尺寸为0.5 mm～2.5 mm［4］，从图6、图7中可看到舌表面的点刺、齿痕。因此本系统满足真实舌重建的动态性和高精度要求。

定义点刺的大小为点刺最高点相对于平滑表面的垂直距离。定义齿痕大小为齿痕最低点相对于平滑舌表面的垂直距离。计算特征明显的被试者舌齿痕、点刺尺寸均值，结果如表1所示，符合标准参数范围。

表1　三维舌特征尺寸单位：mm

因为舌的生理结构，不能得到伸舌状态下的舌背图像，为了获得完整舌模型，利用逆向工程软件Geomagic Studio的自动修补功能完成舌背自动修补，得到结果如图7所示。三维模型可旋转、缩放全方位观察。

图7　不同视角下的重建舌模型

根据结果所示，本文有效的重建三维舌表面，可分辨点刺、齿痕等细微结构，依据深度信息去除嘴角部分，因此本文工作可用于二维舌像的舌体分割，三维特征的提取，如上文的点刺大小，结合二维特征为疾病诊断和早期发现提供依据，同时为用于可视化语言等的参数模型建立快速提供部分准确数据，缩短其长达数小时的建模时间。

3　结语

本文提出基于双目立体视觉的舌表面重建方法。实验结果表明此方法满足真实舌重建的动态性和高精度要求。本文未来的研究方向有以下几方面，其一：改进系统，在小于舌颤动的时间内得到有条纹和无条纹的舌像并用无条纹图像对三维模型纹理粘贴；其二：基于三维模型，提取多种舌像生理病理特征，结合二维特征用于疾病诊断及早期发现。

［1］Lo L，Cheng T L，Chen Y J，et al.Traditional Chinese Medicine Tongue Diagnosis Index of Early-Stage Breast Cancer［C］//Medical Biometrics，2014 International Conference on.IEEE，2014：7-14.

［2］Liang C，Shi D.A Prior Knowledge-Based Algorithm for Tongue Body Segmentation［C］//Computer Science and Electronics Engi⁃neering（ICCSEE），2012 International Conference on.IEEE，2012，2：646-649.

［3］Jiang C，Luo C，Jun Y，et al.Modeling a Realistic 3D Physiologi⁃cal Tongue for Visual Speech Synthesis［C］//Multimedia and Expo Workshops（ICMEW），2014 IEEE International Conference on.IEEE，2014：1-6.

［4］Lü H，Cai Y，Guo S.3D Reconstruction of Tongue Surface Based on Photometric Stereo［C］//Signal Processing（ICSP），2012 IEEE 11th International Conference on.IEEE，2012：1668-1671.

［5］Lundberg A J，Stone M.Three-Dimensional Tongue Surface Re⁃construction：Practical Considerations for Ultrasound Data［J］.Journal of the Acoustical Society of America，1999，106（5）：2858-2867.

［6］Engwall O.A 3D Tongue Model Based on MRI Data［C］//Inter⁃speech.2000：901-904.

［7］Ma J，Cole R.Animating Visible Speech and Facial Expressions［J］.Visual Computer，2004，20（2-3）：86-105.

［8］Ilie M D，Negrescu C，Stanomir D.An Efficient Parametric Model for Real-Time 3D Tongue Skeletal Animation［C］//Communica⁃tions（COMM），2012 9th International Conference on.IEEE，2012：129-132.

［9］Chen Z，Zhang X，Wu Z.A New Tongue Model Based on Muscle-Control［C］//Granular Computing（GrC），2011 IEEE International Conference on.IEEE，2011：132-137.

［10］Liu Z，Wang H，Xu H，et al.3D Tongue Reconstruction Based on Multi-View Images and Finite Element［J］.Advances in Informa⁃tion Sciences&Service Sciences，2011.

［11］Staib W.Photometric Method［J］.Methods of Enzymatic Analysis，2012（4）：1858.

［12］韦争亮.基于彩色编码的结构光动态三维测量及重构技术研究［D］.北京：清华大学，2009.

［13］张广军.机器视觉［M］.北京：科学出版社，2005.

［14］顾骋，钱惟贤，陈钱，等.基于双目立体视觉的快速人头检测方法［J］.中国激光，2014（1）：150-155.

［15］汤一平，宗明理，姜军，等.同向式双目立体全方位视觉传感器的设计［J］.传感技术学报，2010，23（6）：791-798.

［16］神显豪，李军，奈何.基于三维地形修正的无线传感器网络覆盖盲区检测［J］.传感技术学报，2016，29（1）：109-115.

［17］Zhang Z.A Flexible New Technique for Camera Calibration［J］.Pattern Analysis and Machine Intelligence，IEEE Transactions on，2000，22（11）：1330-1334.

［18］Deng C X，Wang G B，Yang X R.Image Edge Detection Algo⁃rithm Based on Improved Canny Operator［C］//Wavelet Analysis and Pattern Recognition（ICWAPR），2013 International Confer⁃ence on.IEEE，2013：168-172.

［19］Otto G P，Chau T.‘Region-Growing’Algorithm for Matching of Ter⁃rain Images［J］.Image&Vision Computing，1989，7（89）：83-94.

［20］Scharstein D，Szeliski R.A Taxonomy and Evaluation of Dense Two-Frame Stereo Correspondence Algorithms［C］//Stereo andMulti-Baseline Vision，2001.（SMBV 2001）.Proceedings.IEEE Workshop on.IEEE，2001：131-140.

［21］罗桂娥，刘小群.区域与特征相结合的立体匹配算法［J］.计算机安全，2011（5）：14-17.

［22］Yang Q.Recursive Bilateral Filtering［M］//Computer Vision-EC⁃CV 2012.Springer Berlin Heidelberg，2012：399-413.

王学民（1961-），男，1985年于天津医学院获得学士学位，1998年于天津大学获得博士学位，现为天津大学副教授，主要研究方向为人体信息检测，经颅磁场分布及脑认知，具体侧重医学成像、分析仪器的研究，利用工程的方法诠释生物信息的研究等几个方面，xueminw@tju.edu.cn；

周鹏（1978-），男，于天津大学获得博士学位，现为天津大学副教授。主要研究方向为神经工程、脑认知、医学图像和信息处理等，zpzp@tju.edu.cn。

郭丹（1991-），女，2014年于天津大学获得学士学位，现为天津大学在读硕士研究生，研究方向为舌像三维重建，guodan@tju.edu.cn；

3D Reconstruction of Tongue Based on Binocular Stereo*

GUO Dan1，WANG Xuemin1，2，WANG Ruiyun1，SUN Fei1，LU Xiaozuo3，ZHOU Peng1，2*
（1.School of Precision Instruments and Opto-Electronics，Tianjin University，Tianjin 300072，China；2.Tianjin Key Laboratory of Biomedical Instrument and Detection Technology，Tianjin 300072，China；3.School of Traditional Chinese Medicine Engineering，Tianjin University of Traditional Chinese Medicine，Tianjin 300193，China）

Tongue image is one of the most important contents of the Traditional Chinese Medicine（TCM）Four Diag⁃nostic，which contains a large number of human physiological and pathological Information.Based on two-dimension⁃al images，the current objective research of tongue diagnosis of TCM can offer information like color，shape and so on，but no details information such as the pricks and crasks.In order to get the comprehensive physiological informa⁃tion，this paper presents a method to reconstruct 3D surface of tongue based on binocular stereo，it is applicable to real tongue with dynamic properties，moreover reaches the resolution of 0.134 2 mm.It would break the bottleneck of exist⁃ing methods with the contradiction between dynamic characteristics and prefect resolution.It would provide the secu⁃rity for correct diagnosis and early detection using comprehensive physiological information，at the same time，many technical problems such as difficult segementation due to lack of depth information are solved.

TCM tongue diagnosis；binocular stereo；3D reconstruction；image segmentation