一种基于机器学习和证据理论的水质预测方法

【www.zhangdahai.com--其他范文】

马晓剑,张家绪,林煜华,王 奥

(东北林业大学 理学院,哈尔滨 150040)

近年来,随着人类对生态文明建设的逐渐重视,自然水体资源是否适用于饮用也日渐受到广泛关注.如何利用简单高效的方法对饮用水资源质量进行分析与预测,是当下研究的重要课题.在水体质量预测与机器学习方法相结合的领域,李雪清等人选取多种气象指标和经济指标,提出了一种基于多源时空数据和机器学习的区域水质预测模型[1],但由于该方法主要选取宏观评价指标进行预测建模,因此仅适用于时空意义下的水体环境质量预测.戴青松等人利用LWCA-SVM模型提出了一种基于机器学习和狼群搜索的饮用水质量预测模型[2],但该方法由于引入了启发式智能优化,因此收敛于全局最优的速度较慢,算法效率仍有待提高.

D-S证据理论是一种基于不确定理论的信息融合方法,该方法是贝叶斯理论的推广,常用于解决多源信息下的信息融合问题,是一种简单高效的人工智能决策技术,现已广泛应用于图像处理、计算机视觉、专家系统等领域[3-5].证据理论在证据高冲突情况下的判别精度不高,因此常常因受到噪声信号的干扰而丧失决策的可信度,如何改善证据理论在高冲突情况下的判别精确度是当前证据理论主要待解决的问题[6].在证据理论中,高冲突抑制方法主要分为两种:一种是修改证据融合规则;
另一种是修改证据.但第一种方法往往会失去Dempster组合规则具有的良好数学性质,而第二种方法往往通过考虑来自证据的可信度、信息量等信息对证据进行修正,具有更好的可解释性[7].在机器学习领域,证据理论可作为一种集成学习的方法改善机器学习性能,此时证据理论将多分类器给出的预测结果视为信号源,对信号源提供的信息量及可信度进行建模,可以改善多分类器架构下的机器学习分类与预测性能[8].

虽然利用D-S证据理论改善高冲突下机器学习判别精确率的方法已广泛应用于故障诊断、多时空数据融合、异常检测等邻域[9-11],但现有的应用证据理论在饮用水质量预测问题中所做的工作仍然较少,而该问题下的特征空间信息冲突常常导致机器学习算法识别精确度不高,因此本文创新性地引入证据理论基于高冲突对机器学习算法进行集成,应用证据理论对多分类器预测结果进行优化,提出了基于线性核支持向量机、随机森林和证据理论的饮用水质量集成预测模型.针对特征空间高冲突从而导致分类器结果高冲突的问题,本文引入BJS散度[12]对来自分类器信息源的高冲突进行抑制,决策时综合考虑信息源的支持度、置信度,实验结果表明本文算法相较于单一机器学习模型具有更高的分类准确率和精确度,显著改善了基分类器的分类效果.

定义1 (基本概率指派(mass函数))假设集合I={i1,i2,…,in}是辨识框架,其中:is≠it,s≠t是两两互异的元事件,则构造辨识框架的幂集2I到实数区间[0,1]的映射m∶2I→[0,1],如果映射m满足下列条件:

则称该映射m为基本概率指派s.在证据理论中,A被称为焦元.此时m(A)被视为m对应的信息源分配给焦元A的信度.

定义2 (Dempster组合规则)假设m1,…,mc是辨识框架I下的c组基本概率指派,则Dempster组合规则表示如下:

定义3 (BJS散度[12])假设Aj是基本概率指派m的焦元,m1,m2是辨识框架I下的两组基本概率指派,则m1和m2之间的BJS散度定义如下:

在不同水体的饮用水质量预测问题中,基于机器学习方法的分类误差主要来源于不同可饮用水体的样本分布之间存在较大冲突,即可饮用水和非可饮用水在特征指标下的分布不存在显著差异,因此分类器在学习时因为受到冲突的干扰,难以学习到有助于精确分类的有效信息并形成具有高置信度的判别结果,给准确识别可饮用水体样本造成了较大困难.本文创新性地引入证据理论对分类器的判别可信度进行建模,同时考虑来自分类器判别结果的信息量,应用证据理论和BJS散度对来自分类器信息源的判别结果进行信息融合,从而提升集成学习的效果,实验结果表明本文算法显著提高了算法的分类精确度.

2.1 探索性数据分析及证据理论的引入

本文算法采用的数据集来自Kaggle数据平台的Water Quality数据集[13].该数据集采集了3 276个来自不同水体的水质指标,用于评估水体样本的可饮用类型,本文选取该数据集9个指标作为特征指标,用于构造机器学习算法的特征空间,9个水质评价指标的基本描述如表1所示.

表1 本文选取的9个水质评价特征指标及单位Table 1 9 features with units of water quality evaluation in this paper

绘制可安全饮用、不可安全饮用水体的样本分布直方图如图1所示,并设置高斯函数为核函数,基于核密度估计给出两类总体的概率密度如图2所示.由图1、2可知,两类总体在9个特征指标下的分布密度基本相似,差异仅表现为两类样本的分布量不均衡,因此当分类器基于上述先验对待测样本进行判别时,会由于两类样本之间的特征相似度过高而产生难以精确区分的情形.在证据理论中,若将一个特征指标视为一个信号源,则上述样本在9个特征指标下相似性过高的情形被称为来自多个信号源的信息产生了冲突,正是这种冲突使得机器学习算法不能生成有把握的分类结果,例如分类器可能在样本的输入特征不具有显著区分度时给出P(正样本)=P(负样本)=0.5的判别结果,此时可认为分类器判别失效.由于在这种特征空间中分类器形成精确判别结果的把握降低,机器学习算法判别的准确率也易受到样本特征随机扰动的影响,从而丧失稳定性.由于证据理论可以在多源信息存在较大冲突的情况下较稳定地形成决策,因此本文提出使用证据理论对多分类器进行集成学习,利用证据理论对结果进行信息融合,利用融合修正后的结果提升多分类器的判别性能,使得算法能在特征高冲突的前提下产生精确的决策.

图1 两类总体在9个特征指标下的样本分布直方图Figure 1 Sample distribution histogram of two kinds of population under 9 features

图2 两类总体在9个特征指标下的核密度估计Figure 2 Kernel density estimation of two kinds of population under 9 features

2.2 集成学习和基于证据理论的信息融合

基于BJS散度的基本概率指派修正方法主要分为三步: 1)首先依据BJS散度的定义计算第i个待测水体样本下线性核支持向量机和随机森林基本概率指派之间的证据距离:

BJSi(mSVM,mRF)=

其中:l∈I.随后,依据两组基本概率指派的BJS散度构建差异度量矩阵:

随后计算来自各个基本概率指派的支持度.由上述分析可知,单一基本概率指派的支持度越高,表明该基本概率指派与其他基本概率指派的差异程度越小,应具有更好的信息支持能力:

最后计算来自支持度的证据置信度:

2)对来自基本概率指派的信息量进行建模.在证据理论中,邓熵[14]作为一种定量计算基本概率指派不确定信息量的度量方法,常用于估计基本概率指派可供决策的信息量大小,若基本概率指派对应的邓熵越大,则该基本概率指派提供的不确定信息量越大.计算第j个基本概率指派的邓熵如下:

其中:l∈I,j∈{SVM,RF}.进一步计算第j个基本概率指派的信息量:

IVi,j=exp{DEi,j}=

其中:l∈I,j∈{SVM,RF}.针对信息量指标进行归一化处理,可得归一化信息量如下:

其中:j,k∈{SVM,RF}.归一化信息量可以保证信息量指标控制在[0,1]之间.

3)在获得了第j个基本概率指派的证据置信度和归一化信息量后,综合考虑上述两个指标提供的决策信息量,计算第j个基本概率指派的权重:

对权重进行归一化,获得归一化权重:

其中:j,k∈{SVM,RF}.最后计算加权后的基本概率指派:

最后依据Dempster组合规则对来自加权基本概率指派的信息进行融合,获得最终判别结果,至此基于证据理论和BJS散度的集成学习算法判别结束,选取概率最大的类别作为该待测水体样本的判别结果,本文算法的计算流程如表2所示.

表2 本文算法计算流程Table 2 Calculation flow of proposed algorithm

本文算法基于Python 3.7开发,设置比例系数δ=0.35将数据集分割为训练集和测试集,对比算法选取线性核支持向量机、朴素贝叶斯、决策树、随机森林开展对比实验,选取准确率(Accuracy)和精确度(Precision)作为分类器性能的评价指标,其中:准确率的计算公式如下:

其中:TP,TN是正确被识别为可安全饮用水体和不可安全饮用水体的样本总数,FP,FN是被错分为可安全饮用水体和不可安全饮用水体的样本总数,精确度指标可以衡量不同分类器正确分类的能力.精确度的计算公式如下式所示:

精确度可以衡量分类器识别真正正样本的能力[15].本文算法与4种对比算法在准确率、精确度2个指标下的分类结果如表3所示.

由表3的结果可知,本文算法在准确率、精确度两个指标下均取得了最好效果,其中:准确率指标相较于线性核支持向量机提高了6.06%、随机森林提高了1.58%,精确度指标相较于线性核支持向量机提高了82.65%、随机森林提高了18.65%.由表3的结果还可知,线性核支持向量机在饮用水质量预测问题中的精确度得分为0,表明该算法未能成功识别任何可安全饮用的水体样本,因此可认为该算法在该问题下完全失效,但在引入随机森林和证据理论对分类结果进行集成后,该指标相较于支持向量机和随机森林均获得了显著提高,这一结果说明本文算法能显著降低将不可安全饮用水体错分为可安全饮用水体的风险,进一步表明了本文算法在饮用水质量预测问题中提高机器学习算法的有效性.

表3 本文算法和4种对比算法的准确率、精确度指标Table 3 Accuracy and precision of proposed algorithm and four comparison algorithms

由于现有的饮用水质量预测数据集中存在的不同群体特征分布过于接近、区分度不显著的高冲突问题,本文从提高机器学习算法在饮用水质量预测问题中的性能出发,提出了一种使用证据理论和BJS散度加权的集成学习方法,该方法通过证据理论将分类器的输出转换为基本概率指派,对基本概率指派的冲突性、支持度、置信度进行建模,将来自基本概率指派的信息重新加权,成功抑制了来自分类器输出的冲突,提高了模型的分类效果.本文创新性地将基于证据理论和BJS散度的集成学习方法应用于饮用水质量预测问题,实验结果表明本文算法相较于对比算法在准确率、精确度两个指标下均获得了显著提高,进一步说明了本文算法改善机器学习算法在饮用水质量预测问题中性能的稳定性和有效性.

猜你喜欢 指派信息量精确度 CVD 预测模型精确度优化措施探究上海理工大学学报(2022年2期)2022-05-05重磅!广东省发文,全面放开放宽落户限制、加大住房供应……信息量巨大!房地产导刊(2022年1期)2022-02-28航站楼旅客行李提取转盘的指派优化分析物流科技(2021年1期)2021-07-05放缩法在递推数列中的再探究新教育时代·教师版(2017年30期)2017-09-12特殊指派问题之求解算法对比分析电脑知识与技术(2017年17期)2017-07-14走出初中思想品德课的困扰探讨成才之路(2016年18期)2016-07-08汉语分裂句的焦点及其指派规律西部学刊(2016年5期)2016-04-26让多媒体技术在语文课堂飞扬试题与研究·教学论坛(2015年5期)2015-09-02近似数1.8和1.80相同吗中学生数理化·七年级数学人教版(2008年8期)2008-10-15古代任官授职的称谓青年文摘·上半月(1983年4期)1983-01-01

推荐访问:水质 证据 机器

本文来源:http://www.zhangdahai.com/shiyongfanwen/qitafanwen/2023/0613/610747.html

  • 相关内容
  • 热门专题
  • 网站地图- 手机版
  • Copyright @ www.zhangdahai.com 大海范文网 All Rights Reserved 黔ICP备2021006551号
  • 免责声明:大海范文网部分信息来自互联网,并不带表本站观点!若侵害了您的利益,请联系我们,我们将在48小时内删除!