多层线性模型 多层线性模型原理及其在医学研究中的应用

【www.zhangdahai.com--销售个人工作总结】

   “多层线性模型”(Multilevel Linear Model,HLM)在美国被称为“层次线性模型”(Hierarch Linear Mode1),在英国被称为“多层分析”(Multilevel Analysis)[1],由于它把第一层回归方程中的截距和斜率作为第二层回归方程中的随机变量,所以这种做法也被称作“回归的回归”[2]。HLM是针对大规模的社会调查、经济研究领域中广泛存在的“嵌套”和“分层”结构数据而发展起来的一种新型统计分析技术,与传统统计方法相比具有模型假设与实际更吻合、结果解释更合理等特点。近年来这一方法逐渐在教育、管理、经济、社会学、心理学等领域的研究中被广泛应用。鉴于当前医学领域对该方法应用较少,为了让医学工作者对其有更多了解,以便在医学领域中更好地运用,现对HLM的原理、分析步骤及应用中应注意的问题简要介绍如下。
  
  1HLM在医学研究中的普遍性
  
  随着医学的发展,医学模式由传统的生物医学模式转变成“生物-心理-社会”现代医学模式,医学模式的转变驱使人们把引起疾病的原因视觉由单纯生物因素转向综合的生物、心理、社会因素[3]。在现代医学模式指导下进行的医学研究常常存在“嵌套”和“分层”的结构数据。例如,在医学领域探讨影响人群健康的主要因素,常常考虑的预测变量主要有个人的生活方式和行为因素、生物遗传因素,以及研究人群所在地区的环境因素和医疗卫生服务因素[3]。这些变量分别来自两个不同的水平,即个人水平(个人的生活方式和行为因素、生物遗传因素)和社会环境水平(环境因素和医疗卫生服务因素),个人水平嵌套于社会环境水平。这种存在嵌套结构的数据再用以前传统的线性模型,如回归分析,就会得出误差较大的结论甚至是错误的分析结果。因为传统的线性回归模型的基本假设是:变量间存在直线关系,变量总体服从正态分布,方差齐性,个体间随机误差相互独立。后两个假设在分层嵌套设计中往往不成立[4]。例如,存在于相同社会环境下个体可以假设方差齐性,但存在于不同社会环境下个体很难保证方差齐性;不同社会环境的个体可以假设相互独立,但存在于同一社会环境下的个体由于受相同社会环境变量的影响,很难保证相互独立,因此如果采用传统的回归分析方法,误差将会很大。而HLM能够将不同层次的变量分层计算,把误差按层次分解为:由第一水平个体间差异带来的和由第二水平社会环境间差异带来的,并假设第一水平个体间的测量误差相互独立,第二水平由社会环境带来的误差在不同社会环境之间相互独立,这样做就提高了差异分解的精度。当前,国内多只是探索性地把HLM应用到了心理和教育研究领域[5~9],而应用到医学领域还少有报道。鉴于医学研究中多层数据结构的普遍性和HLM的优越性,很有必要对该方法进行深入的探讨和应用。
  
  2原理
  
  现以医学研究中,探讨恶性肿瘤发病率影响因素的典型实例对HLM的原理加以分析。在本研究中,因变量Y为是否发病,常常考虑的可能影响变量(自变量)X有个人的性别、年龄、饮酒、吸烟、体育锻炼、膳食等情况,以及该地区的自然环境、生活环境、风俗习惯、经济状况、医疗卫生服务水平等,这些自变量分别来自两个不同的水平,即个人水平和地区水平,个人嵌套于地区之中。如果再考虑社会的特征,那么,数据的层次扩大到了三层,个人水平嵌套于地区水平,地区水平嵌套于社会水平。
  传统线性回归分析的参数估计方法是普通最小二乘估计(Ordinary LeastSquares Estimation,OLS),其回归方程如下:
   其中β0是截距,β1是线性回归系数,ri是残差,其假设为:①ri服从正态分布;② ri的方差恒定; ③ ri是相互独立的; ④ ri与因变量无相关。这些关于残差的假设意味着Y是从某总体中随机取样的,但是在进行取样时,如果个体是属于自然存在的第二层单位,比如个人镶嵌于地区或者社会,并且某些地区或社会的变量,如上所举实例中的自然环境、生活环境、风俗习惯、经济状况、医疗卫生服务水平等变量被认为会对Y产生影响,那末残差就不能满足这些假设[1],这时再用传统线性模型的OLS来估计参数就会得出不准确甚至错误的结论,HLM才是正确解决这一问题的统计模型。HLM参数估计的方法是收缩估计(Shrinkage Estimates),收缩估计由利用信度λ进行加权的两部分估计组成,第一部分是利用第一层变量及其理论进行的参数估计,第二部分是利用第二层变量及其理论进行的参数估计,因此,分层数据收缩估计要比OLS更为稳定或精确[10]]。现以最简单的HLM――二层线性模型为例,对HLM的原理分析如下:
  式中i代表的是第一层的单元,例如,上例中的个人; j代表的是第一层的个体所隶属的第二层的单元,例如,上例中的地区或者社会;的固定成分,在第二层的单位之间是恒定的。
  可以说HLM也是一般线性模型的拓展,许多传统统计方法,比如方差分析(ANOVA)或回归分析,都是它的特例。由上三个公式合并可得:如果不存在组间或第二层单位间的差异,μ0j�和μ1j�等于0,那么HLM就简化为OLS参数估计的传统的线性回归分析,可以认为传统的线性回归分析是HLM的特例,而单因素方差分析、单因素协方差分析也可以看成是HLM的简化[4]。
  
  3分析步骤
  
  目前,人们已经编制了多种应用程序,通过计算机来运行HLM的建构,目前最常用的多层分析软件是HLM、MLwin,现根据相关资料以最常用的HLM统计软件结合所举实例对HLM的分析步骤具体归纳如下:
  
  3.1将原始数据创建成HLM软件运行默认的SSM文件
  因为HLM运行默认的文件类型是SSM文件,因此必须事先将调查的原始数据创建成SSM文件。HLM软件接受SPSS、SAS、SYSTAT或者ASCII数据文件作为创建SSM文件的输入文件。一般而言,创建几层结构的SSM文件,通常需要几个原始数据的文件。创建SSM文件时,包括三个主要的步骤:① 指明用于创建SSM文件的原始数据文件的格式和SSM文件类型;② 指明有关数据、命令和SSM文件的有关信息;③ 检查原始数据是否被正确地读入HLM程序并转化成SSM文件。
  
  3.2 根据专业知识确定初始模型,即模型描述
   研究者根据专业知识和研究目的,确定因变量Y(是否发病)和各层自变量,选择合适的HLM类型,构建出理论模型,并且根据HLM的基本公式写出所选HLM的方程。当然,初始建立的理论模型有可能不是较理想模型,需要根据HLM分析结果评价初始模型的拟合程度并不断对模型进行修改、评价,再修改、再评价……,直至建立较理想模型。
  在建构模型时,确定某个自变量,如医疗卫生服务水平变量是否可以被添加到模型的方程中,这主要根据专业知识确定,同时也可通过HLM软件主窗口中的“Optional Specifications”中的“Exploratory Analysis”命令进行探索性分析,根据结果显示的这个潜在自变量进入方程后的系数值、标准误估计值和进入方程的t值(t-to-enter)大小,确定某个自变量是否可以被引入模型的方程。
  
  3.3应用HLM软件创建命令文件,即模型建构
  首先,用鼠标单击因变量Y(是否发病)的变量名,在弹出的下拉菜单中单击“Outcome variable” 选项,将因变量添加到HLM的方程中;其次,鼠标单击自变量的变量名,如上例中的性别、年龄、饮酒、吸烟、体育锻炼、膳食变量,在弹出的下拉菜单中选择“add variable group centered” 选项,逐一将选择的自变量添加到HLM的方程中;再次,单击主窗口File菜单单项里的“Save as”选项,保存建立当前模型的命令,以供以后直接调用;最后,单击HLM窗口中的“Run Analysis” 选项执行运算命令;单击HLM主窗口File菜单项中的“View Output”选项即可查看本次运算的结果。
  
  3.4对模型的拟合程度进行评价,对模型进行改进
  HLM的输出结果主要有两部分组成,一部分是OLS回归分析,一部分是HLM输出结果。OLS的输出结果对使用者没有多大实际用处,但是体现了HLM的基本思想;HLM输出结果主要包括四部分:① 截距和斜率的方差和相关矩阵。如公式(1)中β0j�
  和β1j的方差和相关矩阵。通过该结果可以分析任意不同的两个自变量,例如,X�1性别和X�2年龄两者对于因变量Y是否发病的影响之间的相关是正相关还是负相关以及相关程度的大小。② 截距和斜率参数估计的信度。信度估计表示截距β0j和斜率β1j在第二层的总方差中有多少比例是真正代表了参数方差而不是估计误差,所以参数信度可以看作是参数估计的精确度指标。如果某预测变量信度系数比较少就可以考虑在进一步的分析中把它设定为没有随机成分的固定参数。③ 固定效应的最终估计(Final Estimation of Fixed Effects)。该结果列出了截距和斜率的回归系数、标准误、自由度、t检验值和相应的P值。④ 随机效应的最终估计(Final Estimation of Variance Components)。该结果列出了截距和斜率的标准差、方差成分、自由度、χ�2值和相应的P值。其中固定效应的最终估计和随机效应的最终估计与研究结果直接相关,根据这两部分的分析结果可以评价初始模型与原始数据的拟合程度,在此基础上不断对模型进行改进,直至最终探讨出与实际数据结构拟合程度较好的理想模型。
  
  3.5结果解释与讨论
   根据最终确定的理想模型的HLM分析结果,结合医学相关专业知识和研究目的,给出符合专业实际的合理解释。
  
  4HLM在医学研究中的应用范围
  
  在医学研究领域,HLM的应用主要在五个方面:第一,广泛应用于组织和管理研究。例如,在卫生事业管理和卫生政策研究领域中的应用。第二,应用于对个体进行追踪或多次观测的发展研究。例如,流行病学研究中的纵向研究和队列研究中的应用。第三,可以视为第一和第二类的综合,在医学领域研究中广为适用。例如,在一些需要连续跟踪研究数年的大型卫生政策研究和流行病学研究中的应用。第四,可以用来做文献综述,即对众多以往的医学研究成果进行定量综合。第五,利用多层的数据来回答单层数据的问题,这种方法充分利用了HLM较为高级的统计估计方法,来改善单层回归的估计和分析。
  从HLM原理可以看出,HLM相对于传统回归分析有众多优点,而且在医学领域具有广泛的应用范围。因此,HLM在医学研究领域必将具有广泛的使用前景。当然,它并不是解决医学领域所有数据分析问题的万能钥匙,也有自身的局限。首先,HLM仍然是以线性和正态性假设为基础的;其次,它仍然是研究由几个变量来预测一个变量的相对简单的回归结构[11];第三,一般研究难以满足HLM对样本量的要求,特别是对水平二(如地区)的样本量要求,虽然并没有统一的标准来判断各水平的样本量多大合适,但一般来说,水平二的样本量都在100以上[4]。无论怎样,HLM比起集中和分解方法是向前迈进了一大步,处于新一代统计分析方法的前沿位置,它的深入应用和探讨,必将进一步带动整个医学研究的发展。
  本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。

推荐访问:线性 多层 医学研究 模型

本文来源:http://www.zhangdahai.com/gerenzongjie/xiaoshougerengongzuozongjie/2019/0329/42208.html

  • 相关内容
  • 热门专题
  • 网站地图- 手机版
  • Copyright @ www.zhangdahai.com 大海范文网 All Rights Reserved 黔ICP备2021006551号
  • 免责声明:大海范文网部分信息来自互联网,并不带表本站观点!若侵害了您的利益,请联系我们,我们将在48小时内删除!