图像风格迁移的实例规范化方法研究

【www.zhangdahai.com--其他范文】

杨正昊,董建设,方婷红,王志凌

(天津职业技术师范大学信息技术与工程学院,天津300222)

在图像处理领域,融合风格创造新的图像是近20年来兴起的一个新的研究热点。风格迁移任务的目标是将一张图像A的某种特征,如纹理、线条、颜色等迁移到另外一张图像B上,生成一张新图像C,图像C同时具有图像A的风格特征和图像B的语义内容。因此,风格迁移任务也被认为是图像纹理或颜色的迁移,即在原图像上模仿并合成特定的纹理。风格迁移的研究发展经历了2个阶段,传统方法采取手工建模的方式获取图像的纹理特征,效果不佳。基于深度学习的方法则采用神经网络来自动获取图像纹理特征,迁移的效率与质量有较大提高,风格迁移研究也重新被人们所重视。在艺术绘画、时装设计、计算机视觉等领域,风格迁移能协助艺术家更好地创造出特定风格的艺术作品。在影视、动漫、游戏制作中也可以更容易地生成目标内容,从而降低制作成本,节省制作时间。基于风格迁移的创作在当前各社交网站上也深受欢迎。为了提高迁移速度与质量,本文提出了一种基于实例规范化的风格迁移方法,极大缩短了风格迁移所需的迭代次数,迁移的质量也有所改善。

1.1 传统风格迁移方法

传统风格迁移方法最早可追溯到21世纪初人们对自然图像生成纹理的方法研究[1-2],研究人员采用手工建模的方法生成特定的纹理。Portilla等[3]发现图像局部特征的统计模型可以在一定程度上描述图像的纹理,并且成功地通过数学建模生成了一些纹理。Freeman等[4]在手工提取局部纹理后,通过无限重复提取纹理实现了纹理迁移,但是该方法生成的纹理非常生硬,实用性不强。虽然手工建模耗时耗力,不同的纹理往往需要建立不同的手工模型,模型间的迁移性也不强,但是还是为纹理生成提供了新的思路。受限于当时计算机硬件的发展水平,往后数十年图像风格迁移的研究进展较为缓慢。

1.2 深度学习的风格迁移方法

自从Geoffrey Hinton提出浅层神经网络[5-6],深度学习方法呈井喷式发展,并在各个领域广泛使用,风格迁移领域也不例外。与传统手工提取图像纹理特征方法不同,卷积神经网络[7-9]可以自主地按照最优方式提取图像的特征。Gatys等[10-11]结合卷积神经网络提出一种有别于传统方法的风格迁移模型,该模型首先使用内容图像引入随机噪声生成一张过渡图像,通过预训练[12]好的VGG网络[13]提取图像特征并计算出内容损失和风格损失来迭代模型生成目标图像。该方法能够很好地迁移目标风格,但是由于人为引入的噪声具有随机性,在一定程度上迁移速度取决于过渡图像质量的好坏,并且每次训练都需要重新训练网络,实时性差,无法实现实时迁移。此外,该方法在直接更新图像的像素值来实现风格迁移时,也会出现图像失真的情况。针对实时性差的问题,Johnson等[14]提出在网络模型前增加一个转换网络,只需要一次前向过程即可得到生成图片;
针对失真问题,Luan等[15]通过对损失函数的改进,使得在照片之间可以进行风格迁移且不失真。Li等[16]另辟蹊径,认为批量归一化层(batch normalization,BN)中的统计量(如均值和方差)包含不同位置和纹理的特征,通过简单地调整目标图像特征在通道(channel)方向上的均值和方差即可实现风格迁移,但该方法在采样过程中,使用反卷积操作填充放大图片时会引入伪影,对迁移效果造成影响。Goodfellow等[17]提出一种对抗生成网络(generative adversarial net,GAN),网络中的生成网络和判别网络通过对抗博弈达到纳什均衡状态,使数据分布散度拟合。受GAN网络启发,Isola等[18]提出了图像到图像翻译的pix2pix模型,Zhu等[19]提出一种使用双对抗生成网络无监督对抗网络CycleGAN,CycleGAN创造性的双向转换,内容图像的特征能被很好地保存。尽管GAN网络在实现风格迁移任务上表现优异,但是往往需要大量的数据集来训练网络,对计算资源的消耗也是巨大的。

风格迁移任务关键是准确获取图像的特征信息,在保持内容图像主体不变的同时,将提取出的风格特征融入内容图像来合成迁移后的目标图像。

1.3 风格迁移模型框架

目前大多数采用深度学习方法的风格迁移算法都需要训练模型来生成迁移后的图像,因速度慢很难做到实时迁移,并且生成风格图像的质量也参差不齐,难以定量评价。针对上述的问题,提出以下解决方案:①使用实例规范化[20]的方法生成过渡图像,消除采用随机噪声生成过渡图像的不确定性;
②给特征提取网络的各层赋合适的权重,从而更好地提取风格图像的纹理和颜色,保留内容图像的主体,模型结构框架如图1所示。

图1 实例规范化风格迁移模型结构框架

实例规范化风格迁移模型主要分为3个模块:实例规范化模块、特征提取模块、迁移模块。实例规范化模块使用实例规范化的方法将输入的内容图像和风格图像合成为过渡图像;
特征提取模块主要由VGG-19网络的卷积层部分构成,用于获取内容图像、风格图像与过渡图像的内容特征和风格特征;
在迁移模块中,使用特征提取模块提取出内容图像与过渡图像的内容特征计算风格损失,风格图像与过渡图像的风格特征计算风格损失,联合2种损失,采用梯度下降的方法更新过渡图像的像素值,得到目标图像。

1.4 实例规范化生成过渡图像

Gatys所提出的算法在生成过渡图像时采用基于内容图像引入随机噪声的方法,尽管可以满足风格迁移的需要,但是过渡图像质量的好坏会直接影响模型的收敛速度,给模型的效率带来了不确定性。

规范化概念的提出最早是为了解决深度神经网络中的协变量偏移问题,保证每一层网络的输入数据在分布上是相似的,从而加快网络收敛,避免梯度消失和梯度爆炸,优化网络结构,提升网络的泛化能力。Ioffe等[21]于2015年首次提出批量标准化(BN),通过计算输入当前网络层的一小批(batch)数据的均值和方差来标准化该层的输入,使输入数据服从均值为0,方差为1的正态分布。

不同于批规范化(BN)每次处理一批数据的方式,实例规范化(IN)是一种作用于单张图像的统计特征处理方法,能独立地计算出单张图像的风格。具体定义为内容图像的特征减去内容图像的均值μ(c)的差,除以内容图像的标准差σ(c),乘以风格图像的标准差σ(s)再加上风格图像的均值μ(s),公式为

使用实例归规范化的方法,可以较为稳定地生成具有一定风格图像的内容图像,能够极大地减少模型的迭代次数。

1.5 特征提取网络

特征提取模块使用VGG-19网络的卷积层提取图像特征。VGG-19网络由13个卷积层和3个全连接层组成。网络中的卷积层堆叠使用尺寸为3×3卷积核取代大尺寸卷积核,在不改变感知野的同时,极大加深了网络深度,确保网络可以学习到更复杂的模式,也大幅减少了网络的训练参数。在构建卷积神经网络时,可以将卷积神经网络看作是一组线性的特征提取器,将图像作为模型输入时,输出的一组图像特征,靠近输入端的浅层网络包含较多图像信息,靠近输出端的深层网络则包含图像较多内容信息,这是由于图像在浅层网络经过的卷积(Conv)和池化(Pooling)操作少,整体信息丢失少;
到达深层网络时,所需处理的内容越来越少,可保留更多内容信息。因此,采用为不同的风格特征层分配不同的权重的策略,权重随网络深度逐渐减小,权重设置方法如表1所示。

表1 风格特征层权重

1.6 损失函数及逆时学习率

风格迁移模型的损失函数包含内容损失和风格损失2部分。内容损失可以由内容图像与过渡图像固定特征层之间平方误差定义为

式中:Fl和Pl分别为内容图像和过渡图像经过卷积操作之后第l层的特征信息。

实验中选取Block4_Conv2和Block5_Conv2来计算内容损失。

经过卷积后得到的特征图的协方差矩阵能很好地表示图像的相关性,在风格迁移任务中表现为图像的纹理特征,采用协方差矩阵作为风格损失也可以在一定程度上抑制图像伪影和混色的问题,但是会损失部分位置信息,导致图像内容有位移现象的产生。而Gatys算法中采用Gram矩阵能很好地保留图像内容的位置信息。因此,本算法风格损失由风格图像和过渡图像各特征层的Gram矩阵的平方误差与协方差误差的和来定义,其表达式为

式中:G为Gram矩阵;
cov为协方差;
θ和γ是调整权重的超参数,实验中选取Block1_Conv1,Block2_Conv1,Block3_Conv1,Block4_Conv1和Block5_Conv1计算风格损失。

模型的总损失为

式中:α和β为调整内容损失和风格损失的超参数。

梯度下降算法通过多次最小化损失函数的迭代来优化模型,学习率在迭代的过程中可以控制模型的学习速度,为提高模型训练效率,避免训练后期在收敛到全局最优点时出现不良振荡,使用学习率衰减的逆时学习率取代固定学习率。在训练初期,逆时学习率的学习步长较大,可以较快地到达最优值附近,在训练后期小步长的学习率有效避免了梯度下降无法收敛到全局最优点,甚至发散的情况。逆时学习率的计算式为

式中:α0为初始学习率;
αt为t时刻的学习率;
β为衰减率;
T为衰减步长。

2.1 实验环境搭建

本实验的环境为Windows 10操作系统,GPU型号为NVIDIA GeForce RTX 3080显卡,算法运行平台为Python3.7,采用TensorFlow深度学习框架搭建模型,框架中的Keras库包含有使用ImageNet数据集预训练过的VGG-19网络,用以加速网络的训练。

2.2 实验数据及参数设置

实验选取2张内容图像,4张风格图像,如图2所示,迁移后生成8张不同的图像。

图2 内容图像与风格图像

其中,图2(c)为梵高的《星空》,笔触线条短且数量多,颜色碰撞强烈;
图2(d)为毕加索的《格尔尼卡》,立体主义和超现实主义的创作手法使得画作的形体和线条随意、抽象;
图2(e)为中国传统的水墨画,着重突出笔墨在宣纸上晕染的效果;
图2(f)为一副线条犀利,颜色鲜明的现实主义画作。

在预处理阶段,将图像的尺寸均裁剪为(450,400),以更好地提取风格图像纹理。为了方便后续网络计算,将图像进行归一化处理,使得图像像素值分布由[0,255]变为[0,1],归一化操作不会改变图像存储的信息,在计算时也可以提高精度。因为使用了Keras库中VGG-19网络在ImageNet数据集上的预训练权重,图像在归一化后需要减去ImageNet数据集图像的均值,再除以ImageNet数据集图像的标准差。

本实验的相关参数设置:使用Keras库中在ImageNet上预训练过的VGG-19网络,并去除全连接层,冻结网络参数,使其不可训练,迭代20个epoch,每个epoch训练100次,使用Adam优化器,学习率使用逆时学习率,初始学习率设置为0.003,衰减率β为0.000 3,衰减步长为1,最终学习率衰减为0.001,风格损失与内容损失的比例为1∶10。

2.3 对比试验设置

为了充分验证模型的可行性和改进的合理性,与Gatys的风格迁移算法进行了2组验证实验和1组风格迁移效果对比实验。

2.3.1 学习率与风格权重

前50次迭代中,随网络深度递减的风格权重和逆时学习率对网络效率的影响如图3所示。

图3 前50次训练损失

实验结果表明,迭代1次后,由于过渡图像素值的大量更新,损失函数大幅下降,随着迭代次数增加,模型逐渐收敛。当权重不变时,使用逆时学习率的收敛速度优于使用固定学习率;
而在学习率不变的情况下,赋予浅层特征层更多的权重,使初始的损失函数值在一个较低的水平。相比于原方法,使用逆时学习率和随网络深度递减的风格权重,极大加快了网络的收敛速度。

2.3.2 过渡图像生成方式比较

实验对比了使用实例规范化与引入随机噪声这2种生成过渡图像的方式,如图4所示。

图4 过渡图像生成方式比较

使用实例规范化生成的过渡图在训练初始时损失函数值远远小于使用引入随机噪声生成过渡图像的方法,并且整体损失函数值降低了8%,下降速度提高了0.5%,较低的损失函数和较快的下降速度都使得模型能更快地收敛。

2.3.3 风格迁移效果对比

选取内容图像2张,风格图像4张分别进行风格迁移,将Gatys方法与本文方法进行对比,对比效果如图5和图6所示。

图5 内容图像1的迁移效果比较

图6 内容图像2的迁移效果比较

图5 和图6中,(a)、(b)、(c)、(d)分别为内容图像使用Gatys方法实现4种风格迁移的效果,(e)、(f)、(g)、(h)分别为内容图像使用本文方法实现4种风格迁移的效果。通过对比可以发现,Gatys算法在全局风格迁移效果不佳,更类似于局部纹理的重复,内容主体不够突出,并且图像颜色的迁移不够明显。而改进后的算法因为采用了实例规范化生成过渡图像,所以很好地保留了内容主体的清晰,并且图像颜色的迁移效果有了进一步提升,采用协方差矩阵计算风格损失也使得迁移后的纹理更具有全局性,而不是局部纹理的简单重复。

2.4 风格迁移质量量化评价

对于风格迁移的质量,很难用一些绝对的指标去评价,因为风格迁移可以看作是一种艺术创作,不同的人可能会对同一个迁移后的结果有不同的看法。常用的质量评估方法有2种:定性评估和定量评估。定性评估要求参与者使用肉眼评估不同算法迁移后的质量,这依赖于参与者的风格感知,这种评估结果可能会受到参与者属性(如年龄、职业)的影响。定性评估方法虽然存在一定程度的不确定性,但至少能够提供一些有关人们的艺术风格偏好的信息。而定量评估是对于风格迁移算法的迁移速度、算法复杂度、图像质量等的精确评估。本文采用峰值信噪比(peak signal-to-noise ratio,PSNR)和结构相似性(structural similarity,SSIM)相结合的方式来定量评价模型风格迁移的质量。

对迁移质量的评价采用峰值信噪比和结构相似性作为联合评价指标。峰值信噪比衡量内容图像与迁移后图像的内容保留度,PSNR的一般取值范围为[0,40],其值越大,表明迁移后的图像内容越清晰,保留的内容越多;
使用结构相似性来衡量风格图像与迁移后图像的结构相似度,SSIM的取值范围为[-1,1],其值越大,两图像风格越接近,当两图像完全一致时,SSIM值为1。

在训练时,每迭代1次计算1次PSNR和SSIM。因为PSNR和SSIM取值范围不同且有一定差距,为了更直观地比较变化,再计算时依据风格图像的不同,给SSIM值乘上了不同的放大系数,不同风格的放大系数由PSNR的均值除以SSIM的均值得到。联合评价指标Q具体计算式为

迁移后图像的平均PSNR和SSIM联合评价指标Q分别如表2和表3所示。

表2 内容图像1迁移效果评价

表3 内容图像2迁移效果评价

通过比较可以发现,在PSNR和SSIM的评价指标及联合评价指标上,基于实例规范化模型生成的风格图像在内容主体的保留、纹理和颜色的迁移效果方面基本优于Gatys方法。但是在第3种风格的迁移实验中,却出现了截然相反的结论。本文认为,第3种风格的水墨画强调意境与色彩的调和,使用的线条与颜色较为柔和,并且在创作时,颜料在宣纸上会出现晕染的效果,导致水墨画的纹理特征不明显,Gatys方法所生成的相似小纹理在结构上更接近于水墨画的图像纹理结构。

2.5 风格迁移速度比较

实验设置迭代20代,每次迭代训练100次。比较每次迭代所需时间,收敛所需的迭代数,从而计算算法的总用时,如表4所示。

表4 收敛速度比较

将Gatys算法迭代10次后的损失函数值设置为收敛损失阈值,实例规范化方法的收敛代数即达到收敛损失阈值所需的迭代次数。相比Gatys方法,实例规范化方法尽管平均每代用时较多,但是较快的收敛速度使得总用时极大降低。

针对原有风格迁移算法迁移速度较慢且迁移质量不佳的问题,采用实例规范化和协方差矩阵的方法,提出一种新的图像风格迁移模型,该方法更好地保留了原始图像的特征信息,并采用递减的风格权重与逆时学习率更好地利用了特征信息。实验结果表明,基于实例规范化方法能够在较好保留内容主体和保证迁移风格纹理的同时,加快迁移速度,减少训练次数,极大节约了训练时间。未来将考虑进一步优化模型,解决内容图像生硬,迁移风格图像颜色时可能导致原图像内容语义改变的问题。

猜你喜欢 纹理实例规范化 谁“捆住”基层的手脚?——泛滥的规范化和标准化当代陕西(2020年22期)2021-01-18基于BM3D的复杂纹理区域图像去噪软件(2020年3期)2020-04-20使用纹理叠加添加艺术画特效摄影之友(影像视觉)(2018年12期)2019-01-28点播影院迎来规范化,4K HDR迎来普及之潮家庭影院技术(2018年4期)2018-05-09价格认定的规范化之路商周刊(2017年23期)2017-11-24TEXTURE ON TEXTURE质地上的纹理Coco薇(2017年8期)2017-08-03消除凹凸纹理有妙招!Coco薇(2015年5期)2016-03-29计岁的规范化与年谱编纂体例西南学林(2014年0期)2014-11-12完形填空Ⅱ高中生学习·高三版(2014年3期)2014-04-29完形填空Ⅰ高中生学习·高三版(2014年3期)2014-04-29

推荐访问:迁移 规范化 实例

本文来源:http://www.zhangdahai.com/shiyongfanwen/qitafanwen/2023/0612/610193.html

  • 相关内容
  • 热门专题
  • 网站地图- 手机版
  • Copyright @ www.zhangdahai.com 大海范文网 All Rights Reserved 黔ICP备2021006551号
  • 免责声明:大海范文网部分信息来自互联网,并不带表本站观点!若侵害了您的利益,请联系我们,我们将在48小时内删除!