基于ROC曲线的建设工程招投标异常低价检测模型研究

【www.zhangdahai.com--其他范文】

杨锐,孙鹏轩

(安徽交通职业技术学院土木工程系,安徽 合肥 230000)

竞争性招标是建筑工程、基础设施建设领域选择合适承包商的普遍方法。然而在实践中,投标人的报价是否低于成本是困扰招标人的重要问题[1-3]。异常报价会扰乱有序、公平的市场秩序,影响工作质量。从避免纠纷的目的出发,寻找异常低价投标行为的判别方法成了一个亟待解决的问题[4,5]。

为避免“赢者诅咒”问题,招标单位多采用更为保守的均价中标法[5,6],这会降低市场效率,无法实现低成本、低报价企业中标的目的。目前最常用的异常报价判别标准方法是相对偏差法和秩排序法[7],前者是比较特定报价与报价平均值的偏差,后者将最低价与次低价做比较。各国在允许偏差的范围或者平均值的计算方法上有所区别,例如比利时、法国、意大利、葡萄牙、西班牙和希腊的使用范围大多在10%到15%之间变化[8]。国内外相关学者从理论角度研究了异常低价投标检测问题。彭明龙等分析了社会平均成本和企业个别成本的形成过程和依据,指出“不得低于成本投标”指的是企业个别成本,但未提出判别标准[9]。Conti P L等推导出了投标报价服从正态分布假设下秩排序法判别阈值以及识别准确率与误警率之间的关系,推荐阈值大小为0.15,即最低报价相对次低报价减少超过15%,则认为其存在异常低价投标的可能性较大[10]。

针对经验法的不足以及投标报价分布假设的局限性,本文提出了适用于投标报价分布未知情况下异常低价投标判别模型。通过Shapiro-Wilk检验方法判断投标报价是否服从正态分布,若服从正态分布则采用最大似然法估计正态分布模型参数,否则采用KDE核密度估计法拟合投标报价概率密度。在此基础上,提出用累积分布函数(CDF)进行评价,通过Monte Carlo模拟实验和ROC曲线分析方法得到最优阈值,并以此为依据判别异常低价投标,并划分风险等级。

假设X1,X2,…,XN是来自同一总体的N个报价数据,总体分布函数为F()x,具体形式未知。α为决策阈值,则xα为判别异常低价范围的界限值,其数学形式为:

求解xα,需要解决两个问题,一是确定投标报价的累计概率密度分布函数F()x,二是确定合理的α取值。

1.1 投标报价分布函数核密度估计

累积分布函数(CDF)是检测模型的重要指标,投标报价值越小,其对应点的累计概率值越小,越有可能属于异常低价投标。投标报价时可先假设其服从正态分布,并利用Shapiro-Wilk检验方法判断样本数据是否服从正态分布,若符合要求,则采用最大似然方法进行参数估计,否则使用非参数核密度估计(KDE)方法估计其经验分布函数。参数估计方法[11]较为常见,本文重点研究报价数据不服从正态分布时,用KDE的方法估计其经验分布函数的方法。

设未知分布总体X的概率密度函数为f(x),其样本观测值为x1,x2,…,xn,则f(x)的一个核密度估计结果为:

其中,K(·)被称为核函数;
hn>0称为带宽,是一个同n有关的光滑参数,满足n→∞,hn→0时,f(x)→f(x)(as.)。本文使用应用范围更广的正态核函数,并根据Silverman提出的经验法则来确定选用正态核函数时的最佳窗宽,其表达式为:

其中,σ为样本数据标准差,n为样本容量。通过上述方法,可以得出投标报价的概率密度函数,并通过式(4)求解出异常低价判别界限值xa。

1.2 最优阈值α的ROC分析方法

ROC曲线以灵敏度(TPR)和特异度(TNR)为评价指标,通过作图法来反映两者之间的关系。以投标报价为例,灵敏度表示异常低价投标样本数据集中被正确识别为异常低价的几率;
特异度表示正常报价数据集中被正确识别为正常报价的几率,“1-特异度”(FPR)也称为假阳性率,即正常报价数据集中被错误识别为异常低价的几率。ROC曲线以灵敏度为纵坐标,“1-特异度”为横坐标绘制而成,其形式如图1所示。

图1 ROC曲线示意图

由于实际招投标活动中无法确切指出全部的异常低价,因此本文通过Monte Carlo模拟方法构造正常报价数据集和异常低价投标数据集。假设两种状态下投标报价均服从方差相同的正态分布,即正常报价设为随机数X~N(μ,σ2),异常低价设为随机数Y~N(β μ,σ2),其中0<β<1,作为异常低价投标折减系数。

得到两组模拟报价数据集并将其合并成为一组完整的投标报价样本,使用KDE核密度估计得到各报价对应的累计概率密度值,将实验数据标记为“正常报价”和“异常低价”两个类别。可能出现以下四种检测结果:

情景1:样本为正常报价,模型检测结果标记为正常报价;

情景2:样本为正常报价,模型检测结果标记为异常低价;

情景3:样本为异常低价,模型检测结果标记为正常报价;

情景4:样本为异常低价,模型检测结果标记为异常低价。

通过设置不同的阈值计算灵敏度和“1-特异度”两个指标值。绘制两者的关系曲线,并计算给定各阈值对应的Youden指数,确定最佳阈值。具体流程方法如图2所示。

图2 ROC曲线确定异常低价判别最优阈值流程图

1.3 模型的建立

判断异常低价投标行为主要分为两个步骤,首先确定投标报价的概率分布,其次确定异常低价判别界限值xα。利用Shapiro-Wilk检验方法,判断投标报价是否服从正态分布,对于服从正态分布的报价数据集,采用参数估计的方法对报价数据进行正态拟合。如果报价数据正态测试结果不满足正态分布,则利用KDE核密度估计方法确定投标报价概率密度函数。在得到投标报价的概率密度分布后根据Monte Carlo模拟实验数据和ROC曲线分析确定的最优阈值α,计算得到异常低价判别界限值xα,最后判断报价数据是否属于异常低价。算法步骤如下:

第一步,利用W检验(Shapiro-Wilk法)判断投标报价是否服从正态分布;

第二步,如果服从正态分布,则利用最大似然估计方法求出投标报价正态分布模型参数μ和σ,并进行第四步,否则进行第三步;

第三步,使用KDE核密度估计模型计算各投标报价的概率密度f(x),并计算累计概率密度函数F(X);

第四步,根据给定的最佳阈值α,根据式(4)求解界限值Xα,判断Xi<Xα是否成立,如果成立,则标记此报价为“异常低价”。

2.1 拟合优度评价

本文选取某省6条高速公路建设工程项目的实际招投标数据,分别运用参数拟合和非参数KDE核密度估计方法拟合投标报价的概率分布,并通过K-S检验评价两种方法的拟合效果。报价数据信息以及W检验(Shapiro-Wilk法)正态测试结果如表1所示。

表1 投标报价数据W检验结果

表1中N表示投标人数量,X表示投标报价样本均值,S表示样本标准差。P-value是W检验法下评价样本数据与正态分布总体差异性的指标,P-value<0.05表示样本数据与正态分布总体有统计学差异,P-value<0.01表示样本数据与正态分布总体有显著差异。根据正态测试结果,在0.05显著水平下,数据显著来自正态分布总体的项目有P2和P5。而项目P1、P3、P4、P6所得Pvalue均小于0.01,表明其投标报价样本数据与正态分布总体有显著差异。因此,对于P2和P5可假设其报价数据服从正态分布,即X~N(μ,σ),并通过最大似然法估计正态分布的参数μ和σ,从而得到投标报价的概率分布;
而对于P1、P3、P4、P6若采用上述方法,则拟合结果将会与实际分布状况产生较大偏差,因此应采用非参数KDE核密度估计方法来拟合得到报价数据的概率分布。分别采用参数估计和KDE核密度估计方法拟合各项目投标报价数据,结果如图3所示。

由图3可以看出,KDE估计与参数估计结果存在明显差异。P1、P3、P4表现出明显的负偏态分布,而P6表现为多峰性,这些特征与正态分布单峰对称性不符,说明报价数据并不总是服从正态分布。而KDE估计能够更好地反映报价数据局部特征。对KDE估计结果进行K-S检验,得到P-value,如表2所示。表中P-value均远大于0.05,说明KDE估计可以适用于各种分布报价数据的概率分布函数拟合,且拟合精度较高。

图3 参数估计与KED估计概率密度曲线对比

表2 KDE拟合优度结果

2.2 最佳阈值确定

根据1.2所述方法,参数β取β1=0.9、β2=0.8、β3=0.7三个不同水平,表示异常低价不同程度地偏离正常报价数据。取参数μ=100,σ=10,利用Monte Carlo方法产生两组实验数据。考虑到公路工程项目招标投标人数量一般在20家以上,且异常低价数量相对较少,因此设置一组正常报价数据集包含20个生成数据,一组异常低价报价数据集包含5个生成数据,重复实验100次,分别生成100组正常报价数据集和异常报价数据集。一次实验生成的所有数据表示一次招投标活动中产生的所有投标报价。对实验结果进行KDE核密度估计,并计算各点累计概率密度函数值F(X)。分别计算不同αi取值条件下的灵敏度(TPR)和1-特异度(FPR),绘制ROC曲线并计算各点Youden指数,选取Youden指数最大处点作为最优阈值α。重复计算100组实验数据得到所对应的αk,k=1,2,…,100,取所有αk平均值得到最后所求目标解αopt。

三个水平的模拟实验数据各取一组,按照上述原则绘制的ROC曲线见图4。以β3=0.7为例,按照Youden指数最大原则选取最佳临界点即C点。其对应的阈值大小为0.32,此时灵敏度为0.8,特异度为0.85。ROC曲线上另外两个拐点为A和B。A点对应的特异度为0.95,灵敏度为0.4,说明异常低价样本中有40%的数据被正确标识出来;
B点对应的灵敏度为1,“1-特异度”为0.55,说明正常报价样本中有55%数据被误判为异常低价。A与B两点之间对应的阈值范围为(0.09,0.92),最优阈值为0.32。同理,β2=0.8对应的阈值范围为(0.12,0.96),最优阈值为0.43;
β1=0.9对应的阈值范围为(0.05,0.86),最优阈值为0.57。在三种不同的水平下,按照此法求得100组数据的最优阈值,从而求出目标解αopt,结果如表3所示。

图4 不同偏离水平下ROC曲线

表3 不同偏离水平下最优阈值

由图4可以看出,偏离水平β由0.9到0.7,所对应的曲线下面积在逐渐增加,三种水平下AZ平均值分别为0.67、0.75、0.82。说明随着低价投标数据偏离程度增大,模型检测效率提高,但整体性能一般。这主要是因为本文所用模型与实践中应用较广的相对均值法以及秩检验法本质相通,目标都是构造一个低价区间,以此作为判别是否低价投标的标准。但“低价”不是“低价投标策略企业”唯一特征,也不是独有特征。这一“低价区间”中仍包含着部分低成本企业,不能否定有些高成本企业即使采取低价策略,其报价仍然高于低成本企业。因此,“低价区间”的意义在于风险提示,如果中标价格在此区间内,则发生“赢者诅咒”的风险就比较高。

2.3 异常低价投标判别结果

异常低价数据偏离程度可用于表征风险程度,β水平取0.9,表示风险程度较低,0.8表示风险程度较高,0.7表示风险程度高。设一次招投标活动中标价格为Xk,不同阈值对应的异常低价界限值用Xα表示,如X0.6表示低风险程度界限值,X0.4表示较高风险程度界限值,X0.3表示高风险程度界限值。若Xk小于X0.6,说明此价格可能存在较小程度的偏离,风险较低;
若Xk小于X0.4,说明此价格存在一定程度的风险,应引起招标方风险管理部门的关注;
若Xk小于X0.3,说明此价格可能存在严重偏离,成本超支风险较高,需要特别注意,可在合同授予前要求企业提供充分的证明材料表明其可以如约完成施工任务,同时调查企业以往工程中成本超支、索赔次数等情况。只有充分了解这些信息才能保证被选中的企业为低成本企业而非“风险偏好型低价策略中标企业”。

根据2.1的拟合结果,对于项目P2、P5可采用最大似然法估计报价数据的正态参数,项目P1、P3、P4、P6可采用KDE估计概率分布。根据不同风险等级所对应的最优阈值,求解某省6条公路工程项目各个风险等级下异常低价判别界限值,并与项目中标价格作比较,最终得到6个项目的风险评价等级,结果见表4。

表4 异常低价投标判别结果

本文从数理统计的角度建立了投标报价分布类型未知情况下的异常低价投标判别模型,同时也提供了一种评价模型性能的实验和验证方法,主要结论如下:

(1)运用参数估计和非参数KDE核密度估计方法拟合报价概率分布,部分项目投标报价服从正态分布,可使用最大似然估计和KED核密度估计法拟合报价概率分布,拟合优度均较高,而大部分项目投标报价不服从正态分布,使用KED核密度估计拟合效果较好。

(2)采用报价数据累积分布函数(CDF)进行评价,并通过Monte Carlo模拟和ROC曲线分析确定最优阈值,建立了异常低价投标判别模型,异常低价偏离程度越大,模型效率越高。

(3)建立了基于报价偏离水平不同的中标价格“赢者诅咒”的风险等级,并提出了相应的评价标准,并以高速公路项目投标数据为例,验证了该方法的适用性与有效性。

猜你喜欢 密度估计正态分布低价 面向鱼眼图像的人群密度估计北京航空航天大学学报(2022年8期)2022-08-31低价≠实惠 吃喝玩乐购,切记避开这些“坑”今日农业(2022年3期)2022-06-05关于n维正态分布线性函数服从正态分布的证明*吉首大学学报(自然科学版)(2021年3期)2021-12-16基于MATLAB 的核密度估计研究科技视界(2021年4期)2021-04-13一种基于改进Unet的虾苗密度估计方法现代信息科技(2021年17期)2021-04-05基于自适应带宽核密度估计的载荷外推方法研究农业机械学报(2021年1期)2021-02-01生活常态模式科技资讯(2020年14期)2020-06-27偏对称正态分布的若干性质统计科学与实践(2019年1期)2019-03-28正态分布及其应用环球市场信息导报(2016年41期)2017-01-19为什么高价总能打败低价?中国照明(2016年5期)2016-06-15

推荐访问:低价 建设工程 招投标

本文来源:http://www.zhangdahai.com/shiyongfanwen/qitafanwen/2023/0807/636542.html

  • 相关内容
  • 热门专题
  • 网站地图- 手机版
  • Copyright @ www.zhangdahai.com 大海范文网 All Rights Reserved 黔ICP备2021006551号
  • 免责声明:大海范文网部分信息来自互联网,并不带表本站观点!若侵害了您的利益,请联系我们,我们将在48小时内删除!