基于ISOMAP-DE-SVM的Cz单晶硅等径阶段掉苞预测

【www.zhangdahai.com--其他范文】

侯少华,张宏帅,姜宝柱,朱宾宾,田增国

(1.郑州大学机械与动力工程学院,郑州 450001;
2.郑州大学物理(微电子)学院,郑州 450001;

3.麦斯克电子材料股份有限公司,洛阳 471000)

直拉(Czochralski, Cz)法是生产单晶硅的重要方法之一,其生长过程可分为五个阶段:引晶、缩颈、放肩、等径、收尾。其中等径生长是单晶硅生长过程中最关键的阶段,该阶段拉制的直径相等部分是单晶硅的主要价值部分。然而,在单晶硅的复杂拉制过程中存在多物理场耦合现象,这导致整个单晶硅的生长过程具有非线性、大时滞、时变等特性,从而使单晶硅出现缺陷的概率增加。位错是晶体拉制过程中的主要缺陷,在等径阶段主要表现为掉苞,掉苞现象是指晶棒四周扁平棱线发生断裂,即硅棒由单晶体变为多晶体的过程,而位错出现的具体原因[1-3]一直是单晶硅生长研究的热点。目前,识别掉苞的方法仍旧是目测法,即通过观察晶棒上的棱线来判断晶体生长是否正常。但是该法的准确性严重依赖工人经验,且时效性难以保证。为了简捷地识别出单晶硅是否将要掉苞,及时发出生产预警,有必要对单晶硅等径阶段的掉苞现象进行预测研究。

目前对于单晶硅拉制过程的研究方法大致可分为三种:(1)多物理场耦合的机理模型[4-7];
(2)机理与数据驱动相结合的混合模型[8-9];
(3)数据驱动模型。从多物理场耦合的角度出发来构建机理模型,虽可以明确参数的物理意义和解释变量参数之间的动态行为关系,但是由于涉及知识较多、范围广,导致机理模型过于复杂,在实践中难以实现;
混合模型虽使用数据驱动模型来描述部分复杂的机理但本质上还是要以机理模型为主,其模型复杂度依然很高[10];
而把数据驱动的方法应用在复杂工业过程的建模中,可以简捷地检测和预测出单晶硅拉制的状态。采用数据驱动的方法来研究单晶硅的拉制过程虽刚刚起步, 仍然取得了一些成果。例如:杜佳晨[11]针对单晶硅等径生长过程“掉苞”的预测,构建的随机森林集成模型预测准确率为94%;
Zhang等[12]针对单晶硅等径生长过程中位错模式的复杂性,提出一种基于深度学习的位错检测方法及跟踪策略,检测准确率为97.33%;
翟晓彤等[13]基于最大互信息的特征选择方法建立了一套对于单晶硅放肩断棱现象预测精度较高的数据驱动模型,预测准确率为93.70%;
李欣鸽[14]基于NARX神经网络建立了加热器温度-晶体直径模型,实现了对单晶硅晶体直径的预测,均方误差为0.000 047。相比其他的方法,基于数据驱动模型的机器学习方法不依赖直拉单晶硅生长机理,可以通过不断地训练来提高预测精度,这是使用数据构建模型的主要优势。另外,对于单晶硅参数之间的相关性和原始数据的特点,大多数文献只是简单涉及了相关性的研究,而对原始数据特点的研究并未明确指出。两者都是影响机器学习模型的因素,清楚原始数据特点和参数相关性对于模型的训练具有指导意义。

目前,有关分类预测的机器学习方法种类很多,其应用也十分广泛。例如:黄亮等[15]针对燃料电池的故障诊断问题,构建了基于差分优化算法的支持向量机模型,预测准确率达到95%;
刘鑫等[16]针对白酒品牌的分类预测问题,构建了基于遗传算法优化的支持向量机模型,预测准确率可以达到97.83%;
吴贵军等[17]针对乳腺癌治疗药物的分类预测问题,通过对比K近邻算法、决策树算法、支持向量机算法、贝叶斯算法以及人工神经网络算法得出决策树模型为最优模型的结论,预测准确率90%;
高旭旭[18]针对点击率预测中多字段分类数据的问题,提出了基于注意力机制的FM&ResNet深度学习模型,预测准确率为97.86%。由以上列举文献可知,不同的问题背景所得到结论也不同,最优模型是相对而言的。在单晶硅发生掉苞的问题背景下,仍然可以尝试使用不同的机器学习方法,确保问题得到良好的解决。

因此,本文秉着高效率、低成本、模型结构简单的原则,针对利用Cz方法生产的单晶硅在等径阶段的掉苞现象,提出使用基于支持向量机的方法来构建有关单晶硅掉苞预测的数据驱动模型。

1.1 斯皮尔曼

斯皮尔曼(Spearman)秩相关系数对原始数据的分布类型、数据选取等没有严格限制,通用性、稳健性较好[19]。经检验,单晶硅等径过程原始数据并非连续等距,且不服从高斯分布,因此采用斯皮尔曼较为合适。

斯皮尔曼相关系数是一种等级变量之间的皮尔逊相关系数。假设有n个随机变量,任意选取其中两个随机变量X、Y。对X、Y中的元素进行排序,得到排序后的次序R和S。Spearman计算公式为:

(1)

式中:Ri、Si为变量在顺序排列样本中的次序。在给定显著性水平α下,相关性系数|ρ|越接近1,两个变量间的相关性越大。

1.2 最大互信息数

最大互信息系数(maximal information coefficient, MIC)是一种不需要对数据分布有任何假设的评估变量间函数关系和统计关系的相关性算法[20],可以解决两变量非线性相关性分析问题。MIC值取值范围是[0,1],值越接近1相关性程度就越强。

针对斯皮尔曼剔除过的原始数据,需要进一步检验关键参数之间是否存在非线性的相关性以及非线性相关性强弱问题,因此有必要采用MIC做进一步的探索。

对于任意分布的两个变量x、y,MIC具体计算步骤是:

(1)划分网格G:nx行ny列,计算出不同网格划分下的互信息值。

(2)

式中:D是依据最大信息系数选出的最佳特征集;
X、Y分别是变量x、y的集合;
p(x)和p(y)是变量x、y的边缘密度函数。

(2)获得最大互信息值I*(D,nx,ny)。

I*(D,nx,ny)=max{I(D|G)}

(3)

(3)归一化最大互信息值M(D)。

(4)

(4)划分不同网格,选择最大互信息值得最大值为MIC值。

(5)

式中:B(n)=nα,n为样本数据个数,常数α(0<α<1)的取值根据经验设置。

1.3 等度量映射

等度量映射(isometric mapping, ISOMAP)是一种基于特征提取的降维处理算法,改造于多维缩放算法(multi dimensional scaling, MDS),其核心思想是使用“测地线”距离代替MDS中的“欧式距离”计算样本点之间的距离。MDS多应用于线性样本数据,ISOMAP多应用于非线性的样本数据[21]。因此,针对关键参数可能会具有非线性的特点,采用ISOMAP的特征提取效果会更好,即以较小数据量的输入,最大化保留原始数据的有效信息。对于样本集D={x1,x2,…,xm},ISOMAP算法主要流程为:

(1)求解D中样本点xi的k近邻;

(2)将xi与k近邻点之间的距离设置为欧式距离,与其他点的距离设置为无穷大,然后调用最短路径算法计算任意两样本点之间的距离dist(xi,xj);

(3)将dist(xi,xj)作为MDS算法的输入,此时,MDS算法的输出(MDS算法不再赘述)即是ISOMAP的输出。

1.4 支持向量机

支持向量机(support vector machine, SVM)是一类按监督学习方式对数据进行二元分类的经典分类器,源自统计理论,广泛应用于数据的分类和预测。因此针对单晶硅在等径阶段是否掉苞的预测问题,采用SVM作为分类器是合适的。

通常情况使用的是“软间隔支持向量机”,即对于线性不可分问题,允许支持向量机在对少数样本划分时可以存在不准确的现象,对于任意数据D={x1,x2,…,xm},其构造表达式为:

ζi≥0,i=1,2,…,m

(6)

式中:ω=(ω1,ω2,…,ωd)为法向量;
b为位移项;
xi为样本点;
yi为标签值;
C(C>0)为惩罚系数,当C趋于无穷时迫使所有样本均满足约束,C取有限值时允许所有样本不满足约束;
ξi为“松弛变量”,表达样本不满足约束的程度。

对于单晶硅数据可能存在非线性的情况,SVM的性能十分依赖核函数的选择,采用合适的核函数对模型预测的结果有直接影响,当情况不明时优先选用高斯核。高斯核函数具有参数少、性能稳定等优点,其数学表达式为:

(7)

式中:x表示空间中心点;
需要注意的是高斯核函数自带的一个参数γ,通过改变支持向量的数量来影响SVM的泛化性能,有如下关系:

(8)

式中:σ为高斯核的带宽,即函数作用范围随σ的增大而减弱。

1.5 差分优化算法

SVM高斯核函数的性能主要取决于超参数C和γ,虽然可以给定经验值,但实际效果往往并不理想。因此需要进行参数寻优,尽可能提高模型的预测准确度和泛化能力。一般较为常用、效果良好的优化算法有差分优化算法(difference evolution, DE)和遗传算法(genetic algorithm, GA)。差分优化算法是研究人员在遗传算法的基础上提出来的,本质上是一种多目标的优化算法,常用于求解高维特征空间中整体最优解,具有收敛快、不早熟、较强的鲁棒性和全局搜索能力等特点[22-24]。

针对SVM的C和γ超参数,差分优化算法以十折交叉验证的精度得分作为待优化目标的函数值,采用网格搜索法寻找最优超参数。具体算法流程如图1所示。

图1 差分算法流程图Fig.1 Flow chart of difference algorithm

2.1 数据来源

本文数据处理、数据建模和数据分析均使用PyCharm Community Edition 2021.2.2环境下的Python 3.8及其自带API。原始数据来源于EKZ2700单晶炉2021年6英寸硅棒拉制数据,该炉数据覆盖晶体从引晶到收尾全生命周期,本文只选取等径阶段的原始数据进行研究。原始数据共有68个特征参数,假设Xi表示第i个参数,i=0,…,67,其中晶体拉制前设置的参数有17个,拉制时的监测参数有51个。剔除30个方差很小的参数,剩余38个参数即Xi(i=0,…,37)。

2.2 斯皮尔曼参数筛选

将上节筛选出的参数Xi(i=0,…,37)的原始数据作为Spearman相关系数的输入,得到它们之间的秩相关系数值。剔除ρ≥|0.75|的冗余特征参数,最后得到Xi(i=0,…,12),共13个关键特征参数,如表1所示,它们之间的Spearman秩相关系数值如图2所示。

表1 关键参数Table 1 Key parameters

图2 Spearman 热度图Fig.2 Spearman heat map

2.3 最大互信息数

根据经验,设置式(5)中常数α=0.6。将Xi(i=0, …,12)的原始数据作为MIC的输入得到参数之间的最大互信息值,如图3所示。

由图3可知,参数之间的MIC值在0.5以内,即存在较弱的非线性相关性,但不存在较强的非线性相关性,因此不需要再对参数进行剔除。

图3 MIC热度图Fig.3 MIC heat map

2.4 特征提取

使用参数Xi(i=0,…,12)的原始数据构造样本数据。为尽可能保持正负样本数据量的平衡和保留数据的信息,样本抽取方式为:正常拉晶数据每百条的均值和标准差,掉苞数据每十条的均值和标准差;
得到样本数据的正样本与负样本比例为3∶2,共构造10 047条、26维的样本数据。记Xij是第i个参数的第j组数据,i=0,…,25,j=0,…,10 046;
记Yj表示第j组数据的标签,Yj={0,1};
标签“0”表示硅棒正常拉制,标签“1”表示硅棒拉制中发生了掉苞。硅棒拉制中一旦发生掉苞,则整根棒的数据都标记为“1”,因为目前仍然无法判定硅棒掉苞的时刻。样本数据Xij经过均值标准化方法处理[25]后,输入给特征提取算法。为了更好地检验降维算法和模型的性能,设置ISOMAP和MDS算法输出分别为3、5、7、9、11维的样本数据,即d={3,5,7,9,11}的矩阵,共得到两份样本数据。

图4是特征提取算法输出为3维特征(d=3)时的2D可视化结果,由于无法很好地表达高维的输出结果,便以此为例说明ISOMAP和MDS在本文中的性能差异。由图4可知,ISOMAP的降维结果明显优于MDS。MDS并未很好地把正常数据和掉苞数据分开,而ISOMAP把样本数据大致分为左右两部分,基本符合分类要求。同时,验证了单晶硅等径阶段数据具有非线性的特点,使用ISOMAP是合适的。

图4 不同降维算法的处理结果Fig.4 Processing results of different dimensionality reduction algorithms

2.5 模型的训练与测试

SVM模型算法架构来源于Python3.8的Geaty库,优化算法的定义为:模型参数为一般经验值,设置种群规模为20,最大进化代数为30,进化停滞判断阈值为10-6,C和γ变量采用固定步长的网格搜索策略,其范围为[2-8,28]。在参数寻优过程中,将十折交叉实验精度得分作为模型训练的评价标准即目标函数。SVM模型的输入是矩阵,输出是标签“0”或“1”,训练集与测试集比例为4∶1。

首先将上一节得到的两份样本数据分别随机抽出五分之四作为GA-SVM和DE-SVM模型的输入,得到如图5所示4个训练结果图。在训练结果中,SVM模型输入为5维样本数据时各个模型的表现较为典型,因此根据图5进行分析与讨论。如图5所示,在模型训练结束时,基于DE的SVM模型进化代数更少,收敛更为快速,基于GA的SVM收敛速度较慢且有发散迹象。此外,虽然两种超参数优化方式的最高精度得分几乎相同,但是使用DE算法的模型平均准确率曲线更平滑、更具有可靠性。这是因为差分算法相较于遗传算法具有收敛速度快、不早熟、不易陷入局部最优的特点。另一方面,经过差分算法优化的模型对于本文的样本数据具有良好的适应性也是重要原因之一。

图5 不同模型的训练结果Fig.5 Training results for different models

图6 测试集结果Fig.6 Test set results

然后调用训练好的模型执行对测试集数据的预测。测试集结果如图6所示,随着输入维度的增加,使用经过ISOMAP算法降维处理的样本数据模型预测准确率折线图总体较为稳定且平均准确率可以达到96%,相较于MDS算法,其平均准确率高出34%。然而,经过MDS算法降维处理的模型,随着输入维度的增加出现了过拟合现象,这导致模型准确率出现了下降的趋势。其原因是数据具有高维、非线性的特点,模型对于样本数据信息的学习过于混乱,无法分辨出单晶硅掉苞与正常两个类别的特征参数值。由此可见,对于单晶硅的样本数据,非线性方法提取出的样本数据信息要优于线性方法[26]。换言之,数据处理的好坏可以直接影响模型的预测结果,依据数据的非线性特点进行数据处理和建立模型是研究过程具有科学性的重要体现。最后,从模型的计算效率和准确度方面分析,ISOMAP输出的5维样本数据能够较好地表征单晶硅等径阶段数据的信息,在实际应用时可以选用此时的超参数值,且[C,γ]取值为[123.338, 0.004]。

总结来说,本文中降维算法和参数优化方法对于模型预测准确率都有一定的影响,其中降维算法的选取更为重要;
另一方面,对于数据相关性的研究奠定了数据处理的基础,这也是影响最终结果的因素之一。

本次测试使用EKZ2700直拉式单晶炉的2022年上半年6英寸硅棒数据进行验证,与上一节使用的数据来源于同一台单晶炉。在单晶硅棒进入等径阶段15 min后,预测系统开始运行。实验流程如图7所示,具体说明如下:

(1)对于所选规格的单晶硅棒等径拉制过程,通过SCADA数据采集系统获取等径阶段的实时数据;

(2)根据Z-score方法,设置距离均值3倍标准差的值为异常值阈值,超过阈值的参数值则以该类别参数均值替换;

(3)对(2)中获取的原始数据进行缩放,具体方法为:每1 min内数据的均值和标准差组成一组数据;

(4)使用均值化方法对(3)中数据进行标准化处理即为样本数据;

(5)调用SVM模型对样本数据进行预测;

(6)对15组样本数据的15个预测结果进行投票,当预测值为“1”的频率大于60%时,可认为单晶棒硅即将出现掉苞,系统发出警告,否则预测系统判定该棒正常,重复以上步骤;

(7)最后与工人师傅记录的随工单进行对比。

随机挑选23根正常硅棒数据,6根掉苞硅棒数据,共29根硅棒数据进行实验验证,得到预测结果的混淆矩阵如表2所示。由表2可知,在实验测试中有少部分实际是正常的硅棒被错误地预测为掉苞;
经过分析发现,标签方法的缺陷是导致该错误结果的主要原因。此外,需要注意的是:该炉性能较为稳定,掉苞发生率低,发生掉苞的硅棒数据较少,预测硅棒在实际情况下发生掉苞的准确率可能会有所浮动。另一方面,在实际应用中可以根据经验调整报警阈值,以达到使用要求。总体而言,该方法在工厂生产中可以大幅减轻工人的劳动强度,有一定的实际应用价值。

图7 模型应用流程Fig.7 Process of model application

表2 单晶硅预测结果混淆矩阵Table 2 Confusion matrix of single crystal silicon prediction results

本文通过线性与非线性的相关性分析揭示了单晶硅等径阶段数据的特点;
通过特征选择和特征提取相结合的方法实现了对样本数据的构造;
通过差分算法实现了对支持向量机超参数C和γ的优化;
通过对比不同模型预测准确度,得出了如下结论:ISOMAP-DE-SVM是本文最优模型以及单晶硅等径阶段数据具有非线性的特点。最后,通过对最优模型的应用验证,表明所述方法具有一定工程应用价值。综上所述,对于单晶硅等径阶段的掉苞预测研究存在以下优势和不足:

(1)本文采用的特征选择和特征提取结合的方法能有效地提取单晶硅等径阶段原始数据中的信息;

(2)本文采用的基于差分算法的支持向量机模型,在准确度、可靠性和收敛速度方面较于其他模型具有明显优势;

(3)本文所提出的模型在实际应用中可以大幅减轻工人的劳动强度、提高硅棒的拉制成功率;

(4)本文没有对打标签的方法进行改善,对最终预测结果造成了一定程度的影响。

猜你喜欢单晶硅原始数据准确率GOLDEN OPPORTUNITY FOR CHINA-INDONESIA COOPERATIONChina Report Asean(2022年8期)2022-09-02乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析健康之家(2021年19期)2021-05-23不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨医学食疗与健康(2021年27期)2021-05-132015—2017 年宁夏各天气预报参考产品质量检验分析农业科技与信息(2021年2期)2021-03-27受特定变化趋势限制的传感器数据处理方法研究物联网技术(2020年12期)2021-01-27高速公路车牌识别标识站准确率验证法中国交通信息化(2018年5期)2018-08-21全新Mentor DRS360 平台借助集中式原始数据融合及直接实时传感技术实现5 级自动驾驶汽车零部件(2017年4期)2017-07-12单晶硅回归能源(2016年2期)2016-12-01单晶硅各向异性湿法刻蚀的形貌控制光学精密工程(2016年2期)2016-11-07单晶硅引领光伏产业走向更高效率、更高收益太阳能(2016年6期)2016-09-23

推荐访问:单晶硅 阶段 预测

本文来源:http://www.zhangdahai.com/shiyongfanwen/qitafanwen/2023/0911/652725.html

  • 相关内容
  • 热门专题
  • 网站地图- 手机版
  • Copyright @ www.zhangdahai.com 大海范文网 All Rights Reserved 黔ICP备2021006551号
  • 免责声明:大海范文网部分信息来自互联网,并不带表本站观点!若侵害了您的利益,请联系我们,我们将在48小时内删除!