(12)发明专利申请
(10)申请公布号 CN 112580580 A(43)申请公布日 2021.03.30
(21)申请号 202011578831.9(22)申请日 2020.12.28
(71)申请人 厦门理工学院
地址 361024 福建省厦门市集美区理工路
600号(72)发明人 张晓云 崔建峰 黄建玉 吴万庆
熊飞兵 韦程琳 蒋明哲 陈浩 徐飞翔 刘琳 (74)专利代理机构 泉州市潭思专利代理事务所
(普通合伙) 35221
代理人 麻艳(51)Int.Cl.
G06K 9/00(2006.01)G06K 9/54(2006.01)G06K 9/62(2006.01)
权利要求书2页 说明书10页 附图11页
G06N 3/04(2006.01)G06N 3/08(2006.01)G06T 5/00(2006.01)
CN 112580580 A(54)发明名称
一种基于数据增强与模型融合的病理性近视识别方法(57)摘要
本发明公开一种基于数据增强与模型融合的病理性近视识别方法,首先对待识别的眼底图
然后将眼底图片进行算法操作以提升数据质量,
像送入深度学习模型进行识别,输出识别结果;所述深度学习模型包括一级模型和次级模型,一级模型的输出接入硬投票器模型作为分类器构成次级模型框架;将一级模型输出作为次级模型的输入;在次级模型中统计每条样本中预测结果项中出现的众数,作为最终的识别结果。此种方法基于多种经典卷积神经网络自动识别眼底图像,同时采用模型融合策略与多种数据增强方式建立模型,从而解决小样本下模型训练不完备情况、避免过拟合以及提高模型泛化效果,一定程度上提高模型的表达能力和泛化能力。
CN 112580580 A
权 利 要 求 书
1/2页
1.一种基于数据增强与模型融合的病理性近视识别方法,其特征在于包括如下步骤:步骤1,获取待识别的眼底图像;步骤2,将待识别的眼底图像送入深度学习模型进行识别,输出识别结果;其中,深度学习模型的训练方法是:步骤a,确定数据集,并将数据集按照7:2:1的比例划分训练集、验证集和测试集;步骤b,对训练集的数据采用多种数据增强方式进行数据增强,得到相对应的增强后的数据集;
步骤c,将步骤b增强后的数据集分别送入AlexNet、GooLeNet、VGG‑16、ResNet‑50进行训练,并以各网络在验证集上的验证准确率来衡量各种数据增强方式在该网络上的学习质量,保存各网络在验证数据集上对应准确率最高的网络模型并记录其对应的数据增强策略,将此时的AlexNet、GooLeNet、VGG‑16、ResNet‑50作为深度学习模型的一级模型;
步骤d,记录一级模型在验证集上的所有识别结果,作为二级模型,即硬投票模型的输入数据集,通过众数选择的方式对一级模型的识别结果做出再次判断,并得到最终的识别结果。
2.如权利要求1所述的基于数据增强与模型融合的病理性近视识别方法,其特征在于:所述步骤2中,所有一级模型均在学习率0.001,损失函数采用logistic loss损失函数,优化器采用SSD优化器,batch_size全部设置为10,每个epoch是30个batch,每个模型均进行30个epoch训练,并且保存,作为一级模型;
冻结以上所有模型的卷积层,全连接层,BN层以及其他层,将输出层接入硬投票模型,进而构建成为结果融合后的深度学习模型。
3.如权利要求3所述的基于数据增强与模型融合的病理性近视识别方法,其特征在于:所述步骤b中,对数据集进行数据增强,具体包括如下内容:
①对图片进行随机翻转;
②对数据集添加随机高斯白噪声;③对数据添加随机亮度,饱和度,对比度;④对图片进行随机等比例裁剪;⑤对图片进行随机改变清晰度;⑥对图片进行随机拉伸;
⑦在原始数据集上叠加随机旋转,随机白噪声以及随机色彩的变化;⑧在原始数据集上叠加堆积裁剪和拉伸操作操作;⑨在原始数据集上叠加随机翻转,随机白噪声,随机亮度,饱和度,对比度,添加随机拉伸,以及随机清晰度;
⑩在原始数据集上叠加随机翻转和随机改变清晰度;在原始数据集上叠加随机裁剪,随机水平翻转以及高斯模糊;在原始数据集上叠加以上所有方法。
4.如权利要求1所述的基于数据增强与模型融合的病理性近视识别方法,其特征在于:所述步骤b中,还对数据增强后的数据集进行预处理,包括对数据首先进行归一化处理,然后定义数据读取器。
5.如权利要求1所述的基于数据增强与模型融合的病理性近视识别方法,其特征在于:
2
CN 112580580 A
权 利 要 求 书
2/2页
所述步骤c的具体内容是:
步骤c1,以VGG‑16作为数据集筛选器,在所有数据集上进行训练,每个数据集训练30epoch,每个epoch会遍历训练数据集中所有数据一遍,每个epoch结束后会进行验证,得到验证结果;以此形式完成30次epoch的训练并形成不同数据集上对应训练出来的模型,选取验证准确率前四的数据集作为备选数据集,并将验证准确率最高的数据集对应的模型作为VGG‑16的最佳模型;
步骤c2,使用AlexNet,GooleNet,ResNet‑50分别在4个备选数据集上依次进行训练,分别筛选出最佳的数据增强后的模型;
步骤c3,将步骤a得到的VGG‑16的最佳模型及步骤b得到的AlexNet,GooleNet,ResNet‑50的最佳模型,共同成为一级模型。
3
CN 112580580 A
说 明 书
1/10页
一种基于数据增强与模型融合的病理性近视识别方法
技术领域
[0001]本发明属于图像处理技术领域,涉及人工智能技术在医学影像领域的应用,特别涉及一种基于数据增强与模型融合的病理性近视识别方法。
背景技术[0002]病理性近视(pathological myopia,PM)是指屈光度多在‑8.00D以上。近视度数持续加深,且常伴发眼后极部的变形改变,包括巩膜变薄、脉络膜萎缩变薄及眼轴的增长,可伴有弱视、青光眼、白内障、玻璃体混浊、视网膜脱落等多种并发症的眼病。[0003]病理性近视相关并发症是现今人们视觉损害及失明的主要原因之一,这种情况在东亚地区尤为严峻。病理性近视可以引起黄斑、视网膜外周以及视神经的多种病变,从而导致视觉损害。眼球结构畸形、包括后巩膜葡萄肿,会加速这些病的进展。有关病理性近视的流行病学调查很多,尽管它们在对病理性近视的定义上可能有所不同。在亚洲人群中的调查显示,病理性近视的发病率为0.9%~3.1%;对澳洲人群的调查显示,病理性近视的发病率为1.2%。此外,研究显示,病理性近视已经成为7%的欧洲人口失明及视力低下的首要原因。由于环境因素和生活方式的变化,高度近视及病理性近视的发病率还在逐年上升。因此,在未来的几十年中,病理性近视相关并发症造成的视力损害问题很可能会变得更为严峻。
[0004]我国眼科医师数量与发达国家相比差距甚大,但国内医患需求本就巨大且近年来随着社会老龄化的发展,其数量呈现逐年递增的趋势。当前医疗领域的主要矛盾是人民日益增长的医疗需求同日趋紧张的医疗资源之间的矛盾。一方面,“看病难、看病贵”的问题仍然存在,主要是现有优秀的医师人才严重稀缺以及医生培养时间长造成;另一方面,人们的健康问题逐渐恶化,对健康的重视程度高,医疗服务需求增加。这是一个社会难题,但人工智能技术却有可能为医疗行业带来转机。[0005]在过去的20年间,借助光学相干断层扫描术、频域OCT和三维磁共振成像术等影像
例如,应用OCT,我们能以高学技术的发展,我们对高度近视相关并发症有了更深度的认知。
分辨率评估视神经、黄斑以及新近的病变,如近视性牵拉性黄斑病变和圆顶状黄斑病变等。新的治疗手段、包括抗新生血管药物疗法和玻璃体切割术等的出现还使部分高度近视相关并发症的预后得到了改善。[0006]近年来,随着深度学习的发展,其在不同领域的实践和应用已逐渐开展,医学领域也不例外,基于机器学习的人工智能技术在眼科中的应用便是其中之一。许多眼部疾病的诊断很大程度上依赖于眼科辅助检查结果,而大部分眼科辅助检查都以影像学检查为主。眼部图像精细、复杂、信息量大,诊断结果常受限于医生的知识水平与临床经验,主观性较强,耗时耗力。通过与计算机相结合的机器学习的人工智能技术在眼科中的应用,可以极大地提高临床工作中眼科疾病的诊断效率,减轻了眼科医生的负担。[0007]以数据驱动,自动提取相关特征的卷积神经网络(CNN)在图像识别方面比传统方法有更好的效果,例如FCN(fully convolutional networks)等,因此把深度学习相关技术
4
CN 112580580 A
说 明 书
2/10页
引入到医学影像处理当中是一种自然的选择,利用卷积神经网络来进行视盘识别的研究也越来越多,并取得了优于识别方法的识别结果。
[0008]虽然基于卷积神经网络的眼底图像识别方法在一定程度上优于传统方法的效果,但是仍然存在一些问题,例如:医学影像数据量大但样本少,但模型训练过程中最主要的依赖便是数据集,数据集的质量决定着模型的质量,因此对数据的预处理可以有效的提升模型的训练效果。又比如,随着深度学习在图像识别领域的不断发展,优秀的神经网络模型不断被提出,虽然每种模型都具有独特的优势,但无法保证在处理各种数据时都表现优异,这就会导致模型的表达能力可能存在短板,即在某些罕见病变图片的识别中显得疲软。针对以上两种已有问题,业界也有很多研究者在不同角度提出优化后的神经网络模型,并取得了行之有效的结果。但通过对已有模型进行改进的方法仍然存在很多不可控因素,例如研究者在优化模型时(比如加宽加深模型),不能直接判断其有效性,只能通过训练结果来观察优化的操作是否对原模型的性能进行有效提升。这样的方法对于算力和时间方面的需求巨大,研发周期较长,通常不能快速解决问题,且其真实适用性有待商榷。发明内容
[0009]本发明的目的,在于提供一种基于数据增强与模型融合的病理性近视识别方法,基于多种经典卷积神经网络自动识别眼底图像,同时采用模型融合策略与多种数据增强方式建立新的深度卷积神经网络模型,以此优化小样本下模型训练不完备、过拟合等情况,且该方式可以在一定程度上提高模型泛化效果,表达能力以及模型识别图片的精确性,为病理性近视的识别以及预后研究提出新的思路。[0010]为了达成上述目的,本发明的解决方案是:
[0011]一种基于数据增强与模型融合的病理性近视识别方法,包括如下步骤:[0012]步骤1,获取待识别的眼底图像;[0013]步骤2,将待识别的眼底图像送入深度学习模型进行识别,输出识别结果;[0014]其中,深度学习模型的训练方法是:[0015]步骤a,确定数据集,并将数据集按照7:2:1的比例划分训练集、验证集和测试集;[0016]步骤b,对训练集的数据采用多种数据增强方式进行数据增强,得到相对应的增强后的数据集;[0017]步骤c,将步骤b增强后的数据集分别送入AlexNet、GooLeNet、VGG‑16、ResNet‑50进行训练,并以各网络在验证集上的验证准确率来衡量各种数据增强方式在该网络上的学习质量,保存各网络在验证数据集上对应准确率最高的网络模型并记录其对应的数据增强策略,将此时的AlexNet、GooLeNet、VGG‑16、ResNet‑50作为深度学习模型的一级模型;[0018]步骤d,记录一级模型在验证集上的所有识别结果,作为二级模型,即硬投票模型的输入数据集,通过众数选择的方式对一级模型的识别结果做出再次判断,并得到最终的识别结果。
[0019]上述步骤2中,所有一级模型均在学习率0.001,损失函数采用logistic loss损失函数,优化器采用SSD优化器,batch_size全部设置为10,每个epoch是30个batch,每个模型均进行30个epoch训练,并且保存,作为一级模型;[0020]冻结以上所有模型的卷积层,全连接层,BN层以及其他层,将输出层接入硬投票模
5
CN 112580580 A
说 明 书
3/10页
型,进而构建成为结果融合后的深度学习模型。[0021]上述步骤b中,对数据集进行数据增强,具体包括如下内容:[0022]①对图片进行随机翻转;
[0023]②对数据集添加随机高斯白噪声;[0024]③对数据添加随机亮度,饱和度,对比度;[0025]④对图片进行随机等比例裁剪;[0026]⑤对图片进行随机改变清晰度;[0027]⑥对图片进行随机拉伸;
[0028]⑦在原始数据集上叠加随机旋转,随机白噪声以及随机色彩的变化;[0029]⑧在原始数据集上叠加堆积裁剪和拉伸操作操作;[0030]⑨在原始数据集上叠加随机翻转,随机白噪声,随机亮度,饱和度,对比度,添加随机拉伸,以及随机清晰度;
[0031]⑩在原始数据集上叠加随机翻转和随机改变清晰度;
[0032][0033][0034]
在原始数据集上叠加随机裁剪,随机水平翻转以及高斯模糊;在原始数据集上叠加以上所有方法。
上述步骤b中,还对数据增强后的数据集进行预处理,包括对数据首先进行归一化
处理,然后定义数据读取器。
[0035]上述步骤c的具体内容是:[0036]步骤c1,以VGG‑16作为数据集筛选器,在所有数据集上进行训练,每个数据集训练30epoch,每个epoch会遍历训练数据集中所有数据一遍,每个epoch结束后会进行验证,得到验证结果;以此形式完成30次epoch的训练并形成不同数据集上对应训练出来的模型,选取验证准确率前四的数据集作为备选数据集,并将验证准确率最高的数据集对应的模型作为VGG‑16的最佳模型;[0037]步骤c2,使用AlexNet,GooleNet,ResNet‑50分别在4个备选数据集上依次进行训练,分别筛选出最佳的数据增强后的模型;[0038]步骤c3,将步骤a得到的VGG‑16的最佳模型及步骤b得到的AlexNet,GooleNet,ResNet‑50的最佳模型,共同成为一级模型。[0039]采用上述方案后,本发明具有以下改进:[0040](1)基于iChallenge‑PM公开数据集设计了12种数据增强方式,几乎涵盖了目前数据增强常用的所有操作,能够在数据预处理方面有效提升数据集质量。[0041](2)基于AlexNeT,VGG‑16,GooLeNet以及ResNet‑50模型设置相同的优化器,损失函数以及学习率等参数旨在使用控制变量的方式,来观察不同增强后数据集对模型在学习特征时的效果。在此基础上在12种数据集上训练得到精确度最高的模型作为一级模型。[0042](3)将以上模型的预测结果作为二级模型的输入数据,将一级模型的输出层全部接入二级模型,即硬投票器模型,完成融合模型的构建,再次进行训练,形成最终融合后的模型。[0043](4)通过以上操作训练后的模型,在不使用迁移学习的情况下,精确度也能达到很高的效果,并且由于使用了数据增强的方式有效扩充了数据集的规模,从而有效的减弱了训练导致的过拟合并有效提升模型识别图片时的精确度和泛化效果。
6
CN 112580580 A
说 明 书
4/10页
附图说明
[0044]图1是Inception结构的演变过程示意图;[0045]图2是优化器的示意图;[0046]图3是融合模型逻辑图;
[0047]图4是高度近视和病理性近视的眼底图像示意图;[0048]图5是原始数据集图片;
[0049]图6是原始数据集左右翻转后的图片;[0050]图7是原始数据集90度翻转图片;[0051]图8、9是添加高斯白噪声前、后的图片;[0052]图10、11是调整亮度前、后的图片;[0053]图12、13是调整饱和度前、后的图片;[0054]图14、15是等比例裁剪前、后的图片;[0055]图16、17是改变清晰度前、后的图片;[0056]图18、19是改变高斯白噪声和随机翻转前、后的图片;[0057]图20、21是旋转,裁剪,拉伸前、后的图片;[0058]图22、23是混合所有方法前、后的图片;[0059]图24、25是使用第三方库前、后的图片;[0060]图26是实验结果图(acc);[0061]图27是实验结果图(loss);
[0062]图28是实验结果图(各模型loss分布);[0063]图29是模型对应图片参数。
具体实施方式
[00]以下将结合附图及具体实施例,对本发明的技术方案及有益效果进行详细说明。[0065]一、实验框架方面:[0066]1、已有技术方案介绍:[0067]①AlexNet:Kizhevsky等提出的AlexNet网络,首次采用5个卷积层和3个全连接层实现1000类图片的分类,已成为深度学习在图像分类领域取得重大突破的开山之作。与传统的卷积神经网络相比,AlexNet采用了一系列方法来改善深度卷积网络。例如,使用ReLU非线性激活函数来加速网络的训练,实现多GPU卷积操作以解决当时显卡资源不足的,引入DropOut随机失活策略来减少全连接层的过拟合情况。此外,AlexNet还提出诸如局部响应归一化、重叠池化,数据增强等策略来提升模型的分类能力和泛化能力。[0068]②VGG:Simonyan等人提出的VGG网络,他们使用3*3的滤波器取代5*5和7*7的滤波器。多个串联的小卷积层的感受野可以和一个大卷积层的感受野大小相同。例如,2个3*3卷积层串联的感受野和1个5*5卷积层的感受野相同,它们的卷积效果相当。但是多个串联的小卷积层却拥有更少的参数和更多的非线性变换,对特征的学习能力更强,效果更好。此外,VGG还将网络结构增加到16或19层,随着网络的层数增多,网络的特征表示能力更强,模型的分类效果更好。VGG网络结构十分简单,效果也较好,因此至今仍然广泛应用于计算机视觉领域的图像分类、检测、分割、超分辨率以及图像风格化等任务中。
7
CN 112580580 A[0069]
说 明 书
5/10页
③GoogLeNeT:Google公司提出的Inception系列对深度卷积神经网络结构的发展
做出了重要贡献。Inception‑V1(GoogLeNet)的最大贡献是将多个不同尺寸的卷积并联,提高了网络的宽度,可以使卷积块能够获取不同感受野的信息。此外,该结构充分利用1*1卷积核的优点来减少网络参数,同时提高了计算资源的利用效率。Inception‑V2提出一种优秀的正则化方法,即批归一化(Batch Normalization),该方法使数据在每次卷积前进行一次批归一化处理,现已成为深度卷积网络的标配,很好地解决了深度网络的训练问题。Inception结构的演变过程如图1所示。[0070]④Kaiming He等人提出的深度残差网络ResNet能够在保证网络精度提升的同时,将网络深度提升到152层,后来又进一步扩增至1000层。理论上,网络越深,精度应该越高,但Kaiming He等人通过实验发现当深度到达一定程度后,盲目增加深度会带来网络的退化
使得模型无法正常训练,导致网问题。这主要是由于深度网络的梯度爆炸和梯度消失问题,
络性能变差。受Highway Network等的启发,他们提出残差结构,在卷积块的输入和输出之间增加了跳跃连接,使得输入可以直接传递给输出。残差结构本质上是为了学习一个恒等映射,而让堆叠的非线性层部分去学习另一个映射F(x)=H(x)‑x。事实上,如果一个网络通过简单的手工设置参数就能达到想要的结果,那这种网络也很容易通过训练来收敛到该结果,这样新增的残差结构至少不会使网络整体性能变差。ResNet通过残差模块,降低了深度网络的训练难度,很好地解决了退化问题,将卷积网络的深度潜能发挥到极致,最终首次在ImageNet分类任务的表现超越了人类水平。[0071]⑤投票器模型:投票机制(Voting)是集成学习里面针对分类问题的一种结合策略。基本思想是选择所有机器学习算法当中输出最多的那个类。机器学习分类算法的输出有两种类型:一种是直接输出类标签,另外一种是输出类概率,使用前者进行投票叫做硬投票(Majority/Hard voting),使用后者进行分类叫做软投票(Soft voting)。硬投票是选择算法输出最多的标签,如果标签数量相等,那么按照升序的次序进行选择。软投票是使用各个算法输出的类概率来进行类的选择,输入权重的话,会得到每个类的类概率的加权平均值,值大的类会被选择。本实施例采用硬投票机制。[0072]2、创新点介绍[0073]将AlexNet、GooLeNet、VGG‑16、ResNet‑50作为一级模型。Learning_rate设置为0.001,采用上述优化器和损失函数,每个模型训练30轮。训练完成后选择每一个准确率最高的模型,然后保存对应的模型参数。然后冻结所有初级学习者的卷积层,使数据进入初级学习者后只能向前传播,不能反向传播。
[0074]模型融合属于模型集成中的一种主要策略,是一种分层模型集成框架。以两层为例,第一层由多个基学习器(即本实施例中的一级学习器)组成,其输入为理论上的原始训练集(本实施例中数据增强后的数据集),第二层的模型则是以第一层基学习器的输出作为训练集进行再训练,从而得到完整的融合模型。如表1所示,过程1‑3是训练出来一级模型,也就是一级学习器。过程5‑9是使用训练出来的模型处理验证集中的数据得到的结果,这个预测的结果作为次级学习器的训练集。过程11是用一级模型预测的结果训练出次级学习器,即得到我们最后训练的模型。[0075]这样设计方便模型的扩展,即硬投票模型可以根据不同的数据集更换为其他次级学习器。
8
CN 112580580 A[0076]
说 明 书
6/10页
表1硬投票模型逻辑图
[0077]
[0078]
模型中其他组件介绍:
[0079]优化器:采用的是Momentum,SGD。其原理可以理解为在穿越沟壑时遇到了困难,即
这在局部最优点附近很常见。在这表面在一个维度上的曲线比在另一个维度上要陡得多,
些情况下,SGD在沟谷斜坡上振荡,而沿着谷底向局部最优方向缓慢前进,如图2所示。动量是一种有助于在相关方向上加速SGD并抑制振荡的方法,如图2b所示。它通过在当前更新向量上添加过去时间步的更新向量的分数γ来实现这一点动量项,γ通常设置为0.9或类似值。
[0080]
本质上,当使用动量时,再次理解为把球推下山。球在下山时积累动量,在途中变
得越来越快(如果有空气阻力,即γ<1,直到达到其极限速度)。在参数更新上使用同样的方式:动量项对于梯度指向相同方向的维度增加,而对于梯度改变方向的维度,动量项会减少更新。以此方式获得更快的收敛速度和更小的振荡。[0082]损失函数:[0083]logistic loss可通过式(2)计算:
[0084]loss=‑Labels*log(sigma(X))‑(1‑Labels)*log(1‑sigma(X)) (2)[0085]已知:
[0081][0086][0087][0088][00][0090][0091][0092]
代入式(4)中:
loss=X‑X*Labels+log(1+exp(‑X)) (4)为了计算稳定性,防止exp(‑X)溢出,当X<0时,loss将采用式(5)计算:loss=max(X,0)‑X*Labels+log(1+exp(‑|X|)) (5)二、实验数据处理方面:1、已有技术方案介绍:
9
CN 112580580 A[0093]
说 明 书
7/10页
现有常用的数据增强方式有:翻转(水平+竖直)、噪声、随机旋转、随机翻转、随机
改变亮度、随机改变对比度、随机改变饱和度、裁剪、缩放/拉伸、模糊。这些方法可以在一定程度上提高数据集的质量让数据集图片中的特征更加容易被机器学习到,但是如何组合使其达到一个最好的效能是一个现实问题。本研究通过组合12种数据增强的方式,挖掘能最有效的提高数据集质量的数据增强方式,以此作为后续研究的优良基础,对深度学习模型训练前期具有重要的意义。[0094]2、创新点介绍
[0095]本实施例研究了12种数据增强的模式,并通过对其进行组合,然后以结果导向评价出最有效果的数据增强模式,然后作为在该公开数据集(iChallenge‑PM)上数据增强的最有效的方式,以此作为后续研究的基础。从以VGG‑16模型作为基础在12个数据集上进行训练得到的结果上来分析,其中
[0096]PALM‑Training1600‑overturn‑dim‑imgaug2;
[0097]PALM‑Training3200‑overturn‑noise‑color‑crop‑deform‑dim;[0098]PALM‑Training1600‑overturn‑crop‑deform;
[0099]PALM‑Training800‑color这4个数据集(数据集的命名方式为公开数据集缩写(PALM)‑训练集标识与数量(Training1600)‑组合的数据增强方式)的识别准确度是会超过95%的,本实施例以95%作为阈值,则以上4个数据集的质量将会使模型有效提高识别能力,可参考表2。[0100]表2
[0101]
实验过程及结果:
[0103]A.实验环境介绍[0104]硬件环境:CPU 4核、RAM 32GB、GPU v100、显存16GB、磁盘100GB[0105]环境配置:Python版本python3.7、框架版本PaddlePaddle 1.8.0[0106]B.数据集选择
[0107]ichallenge‑PM挑战赛数据集的训练集共400张jpg图像以及验证集共400张jpg图像,未提供测试集。因此合并原始数据集中的训练集和验证集并通过7:2:1的方式划分成为新的训练集,验证集和测试集;其中新的训练集作为原始训练集,合并数据增强后的12种数
10
[0102]
CN 112580580 A
说 明 书
8/10页
据集,共同构成实验的训练集。[0108]C.评价指标
[0109]主要参考指标为模型预测的精确度,暂不考虑召回率,灵敏度等方面的指标。因为医学影像处理方面,最注重的就是识别的准确率。[0110]D.一级模型训练过程及结果
[0111]首先以VGG‑16作为数据集筛选器,在所有数据集上进行训练,如图26所示,其中横轴为训练的步数,纵轴是训练过程中验证集的准确率(train/acc),如图27所示,图中横轴为训练的步数,纵轴是训练过程中验证集的损失率(train/loss);图28是图26的另外一种形式,将每个模型训练过程单独提取出来进行展示,其中横轴是训练的自然时间记录,纵轴是训练过程中验证集的精确度(train/acc),图29所示为VGG‑16在13个数据集上训练的数值指标记录,每个数据集训练30epoch,每个epoch会遍历数据集中所有数据一遍,形成不同数据集上对应训练出来的模型。分别使用这13个模型在测试集上进行预测,最终得到如表3所示的结果。通过表3可以分析得到加强后的数据集总体比原始数据集的准确率高。其中PALM‑Training1600‑overturn‑dim‑imgaug2;PALM‑Training3200‑overturn‑noise‑color‑crop‑eform‑dim;PALM‑Training1600‑overturn‑crop‑deform;PALM‑Training800‑color平均准确率都超过了95%。
[0112]因此将这4个数据集作为备选数据集,GooleNet、AlexNet、ResNet‑50均在这4个数据集上训练,各模型在每个数据集上均训练30轮,然后保存训练模型在测试集上进行预测,得到如表4的结果。通过表4可以看到由于不同模型的表达能力存在差异,在数据集选择上也不尽相同,其中,GooleNet和ResNet‑50均在PALM‑Training3200‑overturn‑noise‑color‑crop‑deform‑dim数据集上成绩最高,AlexNet和VGG‑16均在PALM‑Training1600‑overturn‑dim‑imgaug2数据集上分数最高。将以上准确率最高的4个模型作为一级模型。[0113]表3 VGG‑16,AlexNet,GooLeNet,resnet‑50在以上4个数据集上的训练结果
[0114]
E.融合模型训练过程及结果[0116]如图3所示为融合模型逻辑图,将Alex_result、Google_result、ResNet_result、Vgg_result视为一级模型,将一级模型输出的结果作为次级模型的训练数据集特征,与此同时label视作新的数据集的label,以此建立次级模型的训练集。在一级模型后面接入硬投票器模型作为分类器构成次级模型框架,在次级模型中统计每条样本中Alex_result、Google_result、ResNet_result、Vgg_result预测结果项中出现的众数(即多数服从少数),作为最终预测结果,同样经过30轮训练后保存模型,在测试集上进行验证,融合模型最终准确率为97.25%。[0117]具体实例:
[0118]本实施例采用的数据集是ichallenge‑PM挑战赛数据集中病理性近视所使用的数
[0115]
11
CN 112580580 A
说 明 书
9/10页
据集,该数据集提供了800个带批注的视网膜眼底图像。实验目的是对PM和非PM(包括HM:高度近视和正常)眼底图像进行分类,图4为数据集中数据的实例与解释说明,其中,A为高度近视眼底,B为病理性近视眼底,可见大面积萎缩。[0119]数据集获取方法:
[0120]从https://ai.baidu.com/broad/introduction获取完整数据集,进而导入服务器中或者PC端(Win,Linux,Mac)进行解压。通过脚本获取数据集中所有图片数据的路径和图片名称,并且保存下来,作为后序数据增强的研究基础。[0121]说明:数据集命名规则示例[0122]PALM‑数据集名称;
[0123]Training‑训练集800‑800张图片;[0124]overturn‑随机旋转(关键字)[0125]数据增强策略:[0126]1、对图片进行随机翻转(包括并不限于0度,90度,270度,360度)[0127]2、对数据集添加随机高斯白噪声[0128]3、对数据添加随机亮度,饱和度,对比度[0129]4、对图片进行随机等比例裁剪[0130]5、对图片进行随机改变清晰度[0131]6、对图片进行随机拉伸[0132]7、在原始数据集上叠加随机旋转,随机白噪声以及随机色彩的变化[0133]8、在原始数据集上叠加堆积裁剪和拉伸操作操作[0134]9、在原始数据集上叠加随机翻转,随机白噪声,随机亮度,饱和度,对比度,添加随机拉伸,以及随机清晰度。[0135]10、在原始数据集上叠加随机翻转和随机改变清晰度。[0136]11、在原始数据集上叠加随机裁剪,随机水平翻转以及高斯模糊(此操作基于第三方库:imgaug)[0137]12、在原始数据集上叠加以上所有方法。[0138]以此形成后续研究的基础,可参考图4‑图25。[0139]数据预处理:[0140]1、以上所有数据在进入深度学习网络模型进行训练前,全部进行归一化处理,具体是将图片尺寸缩放到224*224,将图片格式由[H,W,C]转置成为[C,H,W],将数据范围调整到[‑1.0,1.0]之间。[0141]2、定义数据读取器,作为控制深度学习神经网络在训练时学习数据的规模。首先从基于以上数据集的存放目录读取所有数据的路径和名称,然后将数据打乱,根据图片名称首字母划分正样本和负样本。(H开头的文件名表示高度近似,N开头的文件名表示正常视力。高度近视和正常视力的样本,都不是病理性的,属于负样本,标签为0,P开头的是病理性近视,属于正样本,标签为1),将每个图片和对应的标签保存在一个临时存储器中。设定batch_size,当临时存储器中的样本数量达到batch_size时,暂停保存,并投放进深度学习模型中进行训练。以上为训练集的数据读取器,验证集和测试集中的数据读取器与其架构类似,具体细节按照对应的业务场景调整即可。
12
CN 112580580 A[0142][0143][0144]
说 明 书
10/10页
搭建模型:1、所有一级模型均使用已有经典深度卷积神经网络模型,分别是:AlexNet:包含5个卷积层,3个池化层以及3个全连接层,dropout层2个并且设置为
0.5。
VGG‑16标准结构:包含5个vgg_block,每个block里面的卷积层数目和输出通道数
由conv_arch指定。
[0146]GoogLeNet标准结构:包含卷积层,池化层以及Inception模块。(卷积,池化层的参数各不相同)
[0147]ResNet‑50标准结构:由卷积层,池化层,BatchNorm层,以及残差快层构成。(卷积,池化层的参数各不相同,ResNet50包含多个模块,其中第2到第5个模块分别包含3、4、6、3个残差块)
[0148]2、以上模型均在学习率0.001,损失函数采用logistic loss损失函数,优化器采用SSD优化器,batch_size全部设置为10,每个epoch是30个batch,每个模型均进行30个epoch训练,并且保存,作为初级学习器。[0149]3、冻结以上所有模型的卷积层,全连接层,BN层以及其他层,将输出层接入硬投票模型,形成融合模型,也就是本发明最后形成的深度神经网络模型。[0150]4、接入硬投票器模型后的融合模型在判断每个初级学习器得到的结果时,将会按照“少数服从多数”的思维对识别结果进行投票判断,进而得到最终的判断。在本数据集上最终的判断即病理性近视或非病理性近视。[0151]综上,本发明是一种基于数据增强与模型融合的病理性近视识别方法,其特点体现在:[0152](1)本发明设计了12种数据增强模式,并通过结果验证,获得了对应不同模型的最佳数据增强方式,基于最佳方式训练得到的增强后的数据集,将会较原始数据集上训练的效果有一个较大的提升。众所周知,人工智能的天花板即人工智能背后的人工,亦即数据集的质量对模型学习后得到的结果产生巨大的影响。由此可知数据集的质量对人工智能后续研究的重要性,本发明正是关注到了数据集的重要性,因此通过组合实验的方式,得到针对该数据集的最有效的数据增强方式。除此之外,该数据增强的方式具有普遍性,即在其他数据集的数据增强工作中依然可以使用该方法模式寻找最佳的数据增强方式;[0153](2)本发明通过模型融合的方式,对一级模型识别的结果做进一步的筛选,以此避免识别的结果过于“相信”某个模型。这种方式具有泛化效果,通过简单的“少数服从多数”的原理,可以让识别结果更加客观。
[0154]以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。
[0145]
13
CN 112580580 A
说 明 书 附 图
1/11页
图1
图2
图3
14
CN 112580580 A
说 明 书 附 图
2/11页
图4
图5
图6
15
CN 112580580 A
说 明 书 附 图
3/11页
图7
图8
图9
16
CN 112580580 A
说 明 书 附 图
4/11页
图10
图11
图12
17
CN 112580580 A
说 明 书 附 图
5/11页
图13
图14
图15
18
CN 112580580 A
说 明 书 附 图
6/11页
图16
图17
图18
19
CN 112580580 A
说 明 书 附 图
7/11页
图19
图20
图21
20
CN 112580580 A
说 明 书 附 图
8/11页
图22
图23
图24
21
CN 112580580 A
说 明 书 附 图
9/11页
图25
图26
22
CN 112580580 A
说 明 书 附 图
10/11页
图27
图28
23
CN 112580580 A
说 明 书 附 图
11/11页
图29
24
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- gamedaodao.net 版权所有 湘ICP备2024080961号-6
违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务