时间:2020年02月27日 分类:教育论文 次数:
摘要:为了更好地拟合实际数据,本文提出了混合广义线性模型并进行参数估计.首先,基于异质总体的一阶矩以及二阶矩存在的条件下,运用混合广义线性模型对子总体的均值进行建模,构造扩展拟似然和伪似然函数,然后利用EM算法对均值参数、散度以及混合比例进行估计,并通过MonteCarlo模拟验证所提出的模型参数估计方法的有效性.最后,实例研究的结果表明本文的模型和方法是科学实用的.
关键词:混合广义线性模型;扩展拟似然;伪似然;EM算法
众所周知,在统计分析中,线性模型是最常见的,但是线性模型一般要求因变量是连续的,然而在实际运用中,因变量有可能是非连续的.因此,需要将其推广至广义线性模型,它适用于连续数据和离散数据,在医学、生物、保险、经济和社会数据的统计分析上有重要意义[1].广义线性模型的起源很早,Fisher早在1919年就曾使用它,二十世纪四五十年代,Berkson、Dyke和Patterson等人使用了Logistic回归,直至1972年Nelder和Wedderburn[2]首次提出广义线性模型,才逐渐引起了众多学者对该模型的关注.
Fahrmeir和Tutz[3]详细介绍了广义线性模型的基本内容以及基于广义线性模型的多元统计建模.在异质总体中,广义线性模型不再适用,则需要根据不同的统计特性对样本进行聚类,混合回归模型是最重要的异质总体统计数据分析工具之一,其主要研究含有两个及两个以上子聚类的混合数据,在生物学、医学、经济学、环境科学、抽样调查及工程技术等领域具有广泛的应用.自Goldfeld和Quandt[4]首次介绍了混合回归模型以来,混合回归模型就引起了许多统计学者的研究兴趣,可参见McLachlan和Peel[5]的专著及其参考文献.
最近,Yao等[6]基于t分布的研究,提出了稳健的混合线性回归模型;Song等[7]基于Laplace分布的研究,提出了稳健的混合线性回归模型;Liu和Lin[8]基于偏正态分布,首次研究了偏态数据下混合线性回归模型.在经典的广义线性模型中,响应变量之间相互独立且服从指数族分布.但在实际生活中,观察到的响应变量之间可能存在相关性,这就导致了所谓的“超散布性”.有关研究超散布性的文章中比较好的有Collett[9]的文献,该文献第六章有详细说明.而对于模型中“超散布性”Wedderburn[10]提出了拟似然方法来对参数进行估计.拟似然方法是假定总体前两阶矩存在,通过对它的对数拟似然方程求极值得到参数的估计值.陈希孺[11]在广义线性模型中对拟似然的方法有详细的阐述.
吴刘仓等[12]研究了缺失数据下双重广义线性模型的参数估计等.目前,广义线性模型和采用拟似然方法进行参数估计的文献有很多,但针对异质总体建模的研究还比较少.本文基于此,首先建立混合广义线性模型,然后利用EM算法对该模型的参数进行估计,对参数估计本文选用两种方法:扩展拟似然估计和伪似然估计,再通过MonteCarlo随机模拟试验来验证方法有效性.最后,实例研究结果表明所提出的模型和方法是实用可行的.
1)两种估计方法,随着样本量增大,所有参数的估计值越来越接近真值,而且估计的均方误差(MSE)也越来越小;2)在样本量n给定的情况下:当混合比例π1=π2=0.50时,两个子聚类的回归模型中均值模型参数估计的均方误差(MSE)大小近似相等,散度值估计的均方误差(MSE)大小也基本一样;而当混合比例π2=0.65时,第二个子聚类回归模型参数估计的均方误差(MSE)均比第一个子聚类估计的均方误差(MSE)小,因为当混合比例越大,样本量越大,对估计的结果越好;3)在同样的条件下,最大伪似然估计的均方误差(MSE)比最大扩展似然估计小.以上结论表明,本文中提出的模型及所使用的EM算法对参数估计取得了比较理想的效果.
如今,科学技术日益发达,运用统计方法研究身体构建有着重要的意义.对人体特征进行数量分析,可以为国防、工业、医疗卫生和体育部门提供参考,而且对法医等医学部门都有实际的用处.本文实例数据来自圣何塞州立大学和美国海军研究生院的两名作者(Heinz和Peterson)测量的数据,总共有507个样本,其中含有男性样本247个,女性样本260个,于是可以得到混合比例π1=247/507≈0.487,π2=260/507≈0.513.
本文研究的是身高与手腕最小周长、大腿围、胸围之间的关系.选取身高作为响应变量yi,其余三个变量作为协变量X=(x1,x2,x3),其中x1是手腕最小周长,x2是大腿围,x3是胸围.1)两种估计方法得到的参数估计结果近似,说明两种方法对前两阶矩存在的异质总体进行建模参数估计时,效果相近;2)在均值模型中,从结果可以看出,手腕周长x1对身高y的影响比大腿围x2、胸围x3对身高的影响大.女性子总体的估计结果跟总体的估计结果比较接近,男性子总体跟总体结果相差较大,所以为了对异质总体进行深入分析,分别对子总体建模是必需的;3)从散度参数估计结果看出,男性子总体参数估计结果与总体和女性子总体的估计结果有较大差异.若不考虑分类研究,可能得到错误的结论.因此,分类建立回归模型是合理的.
本文针对存在一、二阶矩的异质总体建立了混合广义线性模型,然后运用EM算法,结合扩展拟似然和伪似然方法进行参数估计.最后,通过MonteCarlo模拟和实例研究的结果表明,所提出的模型与方法是科学有效的.
参考文献:
[1]刘茜.广义线性模型及其应用[D].乌鲁木齐:新疆大学,2009LiuQ.Generalizedlinearmodelsanditsapplications[D].Urumqi:XinjiangUniversity,2009
[2]NelderJA,WedderburnRWM.Generalizedlinearmodels[J].JournaloftheRoyalStatisticalSociety,SeriesA,1972,135(3):370-384
[3]FahmeirL,TutzG.MultivariateStatisticalModellingBasedonGeneralizedLinearModels[M].NewYork:Springer,1994
[4]GoldfeldSM,QuandtRE.AMarkovmodelforswitchingregressions[J].JournalofEconometrics,1973,1(1):3-15
[5]PeelD,MclachlanGJ.Robustmixturemodellingusingthetdistribution[J].StatisticsandComputing,2000,10(4):339-348
相关论文范文阅读:农林院校高等数学模块化教学改革思考
摘要:高等数学是高等院校一门重要的公共基础课程,文章分析了农林院校高等数学教学改革的必要性与现状,提出模块化教学改革的思路与做法,以供参考。