适用于面诊图像分割的轻量级网络

【www.zhangdahai.com--其他范文】

冯 跃,李胜可,李周姿,梁惠珠,林卓胜,徐 红,2

(1.五邑大学 智能制造学部,广东 江门 529020;
2.维多利亚大学,澳大利亚 墨尔本 8001)

新型冠状病毒肺炎(COVID-19)疫情给我国社会带来了极大的挑战和压力。在本次疫情中,中医药和中西医结合在临床救治中发挥了重要作用[1]。面诊作为中医望诊的重要内容,中医师可通过观察面部特征推测人体内部脏腑健康状态[2]。但传统的中医面诊依赖于医生的主观判断,缺乏客观性、标准化的判断[3]。为了推动面诊客观化的发展,许多研究者将图像处理技术和传统的机器学习应用于中医面诊,展开了面诊图像的釆集与结合中医学理论提取面像特征、分析疾病证侯等研究。林怡等人采用点分布模型算法或Dlib 68点特征检测方法定位出人脸关键点,再结合中医理论分割出相应的面部诊断区域[4]。此方法的鲁棒性较强,但是在构建形状模型时要求手动记录每个训练样本的关键特征点,操作繁琐,实时性差。

随着深度学习方法在医学图像研究上的应用,面部脏腑表征区域的面诊图像分割方法开始向深度学习方面靠拢。ZHOU等人利用FCN-8s将面诊图像分割成前额、左脸颊、右脸颊、鼻子[5-6]等4个区域。TCMINet利用Xception构成具有上下文聚合功能的端到端混合网络,依中医诊断理论对面部、眼睛、鼻子和嘴等面部器官进行检测和分割[7-8]。吴从中等人在生成对抗网络框架下,利用每一层特征图的信息,搭建一个多尺度特征融合网络[9]。LIN等人运用卷积神经网络算法通过面诊图像区域分割和特征提取评价面部特征与冠状动脉疾病风险关系[10]。以U-Net[11]为基础,LIU等人提出了一个多层边缘注意力网络对舌诊图像、视网膜和肺部图像进行精准分割[12]。但是,由于网络计算复杂,不能有效地用于即时应用中的快速图像分割。现有实时分割模型[13-16]在实时性能上有一定程度提升,但模型的准确性却大幅度下降。因此,如何平衡网络模型的高精度及高实时性能之间的矛盾,设计一个轻量级、高实时性的语义分割网络部署于中医面诊设备中仍是个挑战。

1.1 通道分割非对称瓶颈

轻量级网络[17-18]在构建模块时采用点卷积残差结构,然而,点卷积对算力的耗费限制了残差模块的效率。对 此,文 献[18]中 设 计SS-nbt(Split-Shuffle-nonbottleneck)模块,有效地减少网络参数量,提高网络运行效率,如图1a)所示。文献[19]中设计DAB(Depthwise Asymmetric Bottleneck)模块,并以该模块为基础构建了一个实时、轻量的网络,如图1b)所示。本文结合SS-nbt模块和DAB模块的优点,同时采用残差网络中瓶颈设计的思路,提出一个轻量深度分离不对称瓶颈(Lightweight Depth-wise Asymmetric Bottleneck,LDAB)模块,如图1c)所示。

图1 不同模块比较

具体步骤为:

1)利用3×3标准卷积对输入特征图进行卷积操作,实现特征提取及通道数量减半的目的;

2)进行通道分割处理,降低内存访问成本;

3)利用含有空洞卷积的非对称卷积与常规的非对称卷积分别对各分割所得的通道进行卷积操作,再将各自输出的特征图进行拼接来恢复通道数,从而达到密集提取特征、扩大感受野与减少参数量的目的;

4)采用通道重排技术将拼接后的特征重排,实现通道之间的信息交流并提升网络性能;

5)对通道重排后的特征图进行升维,再与最开始的输入特征相加,以丰富特征图的语义信息。

1.2 网络架构设计

目前,语义分割模型的精度已经达到较高的水平,但很多网络的参数量以及浮点数运算都比较大,对设备的内存有着高要求,难以满足实时性要求较高的任务需求。本文基于所提LDAB模块,构建一个轻量深度分离不对称瓶颈网络LDABNet(Lightweight Depth-wise Asymmetric Bottleneck Network),如图2所示。

图2 LDABNet架构图

LDABNet网络主要包括三个部分:

第1部分包含3个带BN层PReLU激活函数的3×3卷积层,其中第一层卷积层实现了一次下采样,最低层的目的是过滤掉冗余信息和进行维度上的拼接。

第2部分由三路分支组成,每路分支有着不同的处理方式,最后将其分支结果进行拼接融合,其目的是增加特征图的深度,同时融合各层次信息以丰富语义信息。

分支1:对输入的特征图进行最大池化操作,窗口大小为2×2,步长为2。此操作目的是进一步过滤掉冗余信息,提高特征的质量,并对特征图进行下采样操作以减少网络的计算量及记忆内存;

分支2:对输入的特征图使用3×3的标准卷积核的卷积进一步提取图像特征,以获取更高级的特征并实现降维功能;

分支3:将特征图并行通过连续LDAB模块和链式残差池化(Chained Residual Pooling,CRP)[20],密集地提取图像特征和扩大感受视野。三个LDAB模块中的空洞率均为2。

第3部分,除了LDAB模块的个数和空洞数以及残差池化换成了恒等映射之外采用与分支3相似结构,主要目的是获取丰富的语义信息。此处6个LDAB模块的空洞率分别为4,4,8,8,16,16。

1.3 加权边界感知损失函数

面诊图像的面部脏腑表征区域划分存在模糊性,因此划分的区域大小没有统一标准,面部各区域的肤色或纹理与其周围区域的相似度较高,难以精准训练。中医面部脏腑分布区域的划分中背景占的像素数目比例较大,如果各类权重取值相同,容易导致训练模型困难,影响网络模型性能。因此,本文在EHANet[21]提出的加权边界损失函数基础上引入各类权重参数。总的损失函数由3个损失函数组合而成,各损失函数公式如下:

式中:Lb表示边界感知损失,用于加强网络对边界的学习能力;
β为权重比,调节边界与非边界的重要程度并平衡训练;
(i,j)为像素的二维坐标。

式中:Lc表示粗分割损失;
N为特征通道数;
p与分别代表N通道的置信度图及N通道的真实标注图。

式中:Lw表示组合分割损失;
α为常数,取值为50;
θ为非边界或边界的权重;
wclass为相应类别权重;
C为常量,其取值为1.1;
Pclass表示总训练样本中相应类别的像素数占总像素数的比例。

式中:Ltotal为总的损失;
λc,λb,λw分别为平衡训练过程中Lc,Lb和Lw的权重参数。训练过程中,各参数的取值与EHANet相同。

2.1 面诊图像数据集

面诊图像数据集来源于具有国家医疗器械注册证的舌面诊仪研发单位提供的面诊资料库,共232例。由专业中医师根据中医诊断学面部五脏反射区理论参与标注为5类标签:背景(Background,Bg)、额头(Fore-Head Block,FHB)、左脸颊(Left Check Block,LCB)、右脸颊(Right Cheek Block,RCB)及鼻 部(Nose Bridge Block,NBB)。实验中重设图片为360×480,数据集按照172∶30∶30的比例随机划分为训练集、验证集及测试集。

2.2 实验环境

实验在配置NVIDIA GTX 1080显卡和Windows 10系统的计算机和深度学习框架Pytorch进行训练。优化器选用Adam,平均系数为0.9,平方的系数为0.999,重量衰减为2E-4,批量大小为16,训练迭代最大次数为1 000次。学习率策略采用多学习速率策略[21],初始学习率为4.5E-2,Power为0.9。训练过程中数据增强包括随机水平翻转、平均减法和随机比例,其中随机比例设置为{0.75,1.0,1.25,1.5,1.75,2.0}。

2.3 性能评估指标

为了评估LDABNet网络的性能,采用像素精度(Pixel Accuracy,Pixel Acc)、总体像素准确率(Global Pixel Accuracy,GPA)、平均并交比(mean Intersection over Union,mIoU)、F1分数等4个指标。其中像素精度将分别对背景(Bg)及不同的脏腑体表分布区域额头(FHB)、左脸颊(LCB)、右脸颊(RCB)、鼻部(NBB)进行计算。这些参数通过网络预测的结果与真实标签进行对比以判别结果。计算公式为:

式中pi j表示属于类别i但被误判为类别j的像素个数。

式中:k为类数;
k+1表示加上了背景类。

式中:precision为精准率;
recall为召回率。

式中:T为被标注的像素个数;
TPi为预测为正样本的正样本的数量。

为了验证所提方法的整体性能,在同一实验条件下与轻量级、重量级以及医学图像先进网络进行对比,包括表1所示9个网络。表1中LDABNet在网络训练过程中采用损失函数与DABNet相同的,称之为LDABNet1,采取本文的加权边界感知损失函数,则称之为LDABNet2。从表1所示结果可知:DANet与DeepLab v3+的mIoU均比ENet的稍高,但是两者的帧率均低于20 f∕s,远低于ENet的帧率。DANet与DeepLab v3+的参数量分别为66.43×106和59.34×106,远高于ENet的参数量,这是因为DANet与DeepLab v3+均采用深层残差网络作为主干网。LDABNet的处理速度则可达到57 f∕s,其参数量也仅为0.65×106,因为LDABNet是通过具有较少参数量的LDAB模块堆叠而成且层数较少。不同网络模型在面诊测试集上的mIoU与帧率的比较情况如图3所示。LDABNet比CGNet、ENet、FPENet等网络处理速度要快,且达到了mIoU、GPA和F1分数3个指标上的对比最优,表明了本文所提出的网络模型具有较快的推理速度,同时也具有较高的分割精度。

图3 不同网络在面诊测试集上的mIoU与速度比较

表1 不同网络在面诊图像测试集上的结果

不同网络预测结果如图4所示。

图4 不同网络模型预测结果的比较

从图4可以看出,相对CGNet、LDABNet1以及LDABNet2而言,ENet在面诊图像数据测试集上的分割效果较差,左右脸颊分割结果的边界波浪起伏且额头以及鼻部区域出现了误判。这是由于中医面部五脏反射区域的划分存在模糊性且目标区域与背景的部分区域的相似度高,例如额头区域与其周边的背景区域在颜色以及纹理上高度相似。此外,ENet网络中当前阶段的输出特征会直接进入下一阶段并没有融合当前阶段输出之前的特征信息,因此导致网络对目标区域的位置以及纹理等信息不够充分利用。

CGNet、LDABNet1、LDABNet2的 预 测结 果 相比,LDABNet2分割结果上中医面部反射区域的边缘没有过多的膨胀且比较平滑,其分割效果最接近真实标签。这是因为LDABNet2采用跳跃连接方式,使得当前阶段的输出特征能够与来自更低层的特征融合,有效地利用位置以及纹理等低级语义信息。同时LDABNet2在模型训练过程中会合理地给目标边界分配权重,增强网络对目标边界的学习能力。

在面诊图像数据测试集上,LDABNet2的效果能够超越LDABNet1,这因为面部反射区域分布较为松散,相互之间不存边界接壤问题,更容易学习各区域边界知识。实验结果证明,中医面部五脏反射区域的分割上采取边界监督方案能够一定程度上缓解混淆训练的现象并提高分割精度。

本文针对轻量级网络中存在的高精度与实时性的矛盾关系,在两者之间找到适合的平衡,提出一种轻量深度分离不对称模块,即LDAB模块,并基于此结构建立了LDABNet网络。LDAB模块融合通道分割、通道重排、空洞卷积、非对称卷积及深度可分离卷积的优点,提升LDABNet网络精度,并减少网络参数量,加快网络推理速度。与此同时,针对中医面部脏腑分布区域的划分存在模糊性以及容易混淆训练的问题,本文改进了EHANet加权边界感知损失函数。实验结果证明,LDABNet网络能同时满足高精度以及实时分割的要求,并且加权边界感知损失函数有效缓解了混淆训练现象,有利于在中医面诊设备上进行部署。

猜你喜欢边界卷积损失拓展阅读的边界儿童时代·幸福宝宝(2021年11期)2021-12-21基于3D-Winograd的快速卷积算法设计及FPGA实现北京航空航天大学学报(2021年9期)2021-11-02胖胖损失了多少元数学小灵通·3-4年级(2021年5期)2021-07-16意大利边界穿越之家现代装饰(2020年4期)2020-05-20从滤波器理解卷积电子制作(2019年11期)2019-07-04玉米抽穗前倒伏怎么办?怎么减少损失?今日农业(2019年15期)2019-01-03论中立的帮助行为之可罚边界证券法律评论(2018年0期)2018-08-31基于傅里叶域卷积表示的目标跟踪算法北京航空航天大学学报(2018年1期)2018-04-20一般自由碰撞的最大动能损失广西民族大学学报(自然科学版)(2015年3期)2015-12-07损失读者·校园版(2015年19期)2015-05-14

推荐访问:适用于 分割 图像

本文来源:http://www.zhangdahai.com/shiyongfanwen/qitafanwen/2023/0916/654898.html

  • 相关内容
  • 热门专题
  • 网站地图- 手机版
  • Copyright @ www.zhangdahai.com 大海范文网 All Rights Reserved 黔ICP备2021006551号
  • 免责声明:大海范文网部分信息来自互联网,并不带表本站观点!若侵害了您的利益,请联系我们,我们将在48小时内删除!