时间:2020年08月26日 分类:科学技术论文 次数:
摘 要:交通大数据经常面对数据删失、截尾、缺失等问题。生存分析模型可以很好地处理该问题,在交通领域逐步推广。它将事件 结果与出现这一结果所经历的时间结合,可以判断事件发生或者结束时间的分布或探究解释变量对生存时间的影响。国内外许多研究 通过生存分析的灵活应用及拓展,为很多实际交通问题提供了解决方法和指导意见。文章首先介绍了主要生存分析的适用性及拟合优 度比较方法,并介绍若干交通领域生存模型应用案例。
关键词:生存分析;适用性;拟合优度;交通工程
引言
生存分析模型也称为持续时间模型,作为基于实验或 调查数据分析生存时间的一种统计方法,近年来已逐步应 用于交通领域的拥堵[1],高峰[2]及等待时间[3]等实际问题的 研究。研究对象的状态可能为两种以上,抽样方式和分布 往往具有多样性且一般存在删失数据。本文介绍生存分析 的基本概念,主要模型的适用性及拟合优度的评判标准, 结合现有交通研究进行案例分析。
1 生存分析
1.1 生存时间
交通预测面临很多动态预测需求。例如高峰期拥堵开 始至结束的持续时间,行人到达交叉口至开始闯红灯所经 历的等待时间等。这些例子都包括起始事件和结束事件, 事件经历的时间即生存时间。
1.2 生存函数
生存函数又称累计生存率,表示单个事件的生存时间 T 大于时间 t 的概率,即单个事件在时间 t 之后仍然存活的 概率。如果随访数据中不存在截尾数据,生存函数可以表 示为: S(t)=P(T>t)= ∞ 乙t (f u)du (1) 如果随访数据中出现截尾数据,需要计算不同分段下 单位时间的生存概率 p(k k=1,2,…,t),则S(t)=p1×p2…×pk (2)
1.3 概率密度函数和风险函数
生存分析概率密度函数定义为事件在 t 时刻结束的概 率,概率密度函数为非负函数,各时刻结束概率绘制成的 曲线与时间轴之间的面积为 1。公式表示为 风险函数表示事件的生存时间到达 t 后,在(t,t+△t)这 一时间区间内瞬间“死亡”的概率,即 2 主要生存分析模型及其适用性 生存分析模型有三种形式:非参、参数及半参模型。选 择时主要取决于想要预设的生存函数类型以及协变量如 何对生存时间产生影响。非参生存方法主要用于对随访数 据进行统计性描述,本文主要介绍半参数和参数生存模型 的适用性及其案例。
2.1 半参数生存模型
2.1.1 模型介绍
半参数生存模型首次提出于 1972 年[4],它不需要预先 设定生存时间的分布,但却可以最终通过模型反映生存时 间的变化以及协变量对生存时间的影响,近年来已成为最 受欢迎的生存模型。 其中,Cox 比例风险模型 (Cox proportional hazardsmodel)最受欢迎,是“稳健”模型,调整后的生存曲线可以 良好的估计各种数据并获得风险比,给出了可靠的拟合结 果。
在应用于实际问题之前需确保数据满足风险概率假 定,即加入模型的协变量对生存率的影响不随着时间而改 变。其风险函数表达式为 (5) 式中,h(0 t)为基础风险函数,未指定任何分布。不包含 时间的 X 的指数分布确保了模型始终给出非负的风险估 计。PH 假定即基准风险 h(0 t)是 t 的函数而与 X 无关,指数 部分是 X 的函数,与 t 无关。半参数模型在满足 PH 假定的 前提下具有普适性和较高的灵活性,Cox 比例风险模型没 有限定生存时间的分布,也就无法得到任意时刻的概率密 度值。因此估计协变量的参数时,使用偏似然函数代替极 大似然法。
2.1.2 案例分析
半参数生存分析由于其独特优势而被广泛应用跟驰 时间、救援时间、等待时间研究。赵海月(2018)[5]应用 Cox 比例风险模型研究特殊天气下信号交叉口的行人穿越行 为,将生存时间定义为行人在红灯期间到达道路交叉口等 待区至离开等待区的时间跨度,将行人选择遵守法规等待 至绿灯时离开的数据定义为“删失”。
该研究探讨了出行时 段、个人特征、行为变量三类因素对行人忍耐时间的影响, 分析结果对提升行人过街安全具有一定现实意义。 杨茜(2018)[6]使用 Cox 比例风险模型对相同问题展开 研究,呈现了较好地模型拟合效果且结构完整。在进行 PH 假定检验的过程中,该论文指出若某些协变量不满足要 求,可以考虑将其从比例风险中剔除。但事实上在许多实 际问题研究中,可以通过对 Cox 比例风险模型地适当变形 来解决。
张彦宁(2020)[7]等人在对驾驶员跟驰反应延迟时 间的研究中就使用了分层 Cox 模型进行分析。近年来,为 应对随访数据中协变量的多种问题,研究中经常被使用的 半参数生存模型还包括分层 Cox 模型,Cox 共享脆弱模型, 带有时间相关变量的 Cox 风险模型等。
2.2 参数生存模型
2.2.1 模型介绍
当生存时间的分布明确,参数模型是最佳选择。参数 生存模型需要给出生存时间服从特定的参数分布。若某生 存分析中仅有协变量性别(女性=0,男性=1),而在任何特 定时间内受访者均处于“存活”,半参数模型无法像参数模型一样完成 Kaplan-Meier 估计。 非参数和参数方法比较了在“死亡”发生节点的受访 者,参数方法不基于结果进行此类比较,而是使用概率描 述了在给定的时间范围内,受访者在整个时间间隔中发生 的情况。
参数生存分析同样具有分层、脆弱等多种变化以 适应数据和变量的复杂性,主要的参数分布有指数分布、 Weibull 分布、对数 Logistic 分布、伽马分布等,风险函数和 生存函数的表达形式如表 1 所示。 其中 λ 为尺度参数,决定分布的离散程度;ρ 为形状参 数,决定分布的整体形态。
2.2.2 案例分析
参数生存模型相对于半参数生存模型来说可以获得 更好的数学形式。李明(2015)[8]定义生存时间为从零点开 始至居民出发去购物为止所经历的时间段,引入了个人特 征、家庭结构和出行方式三类变量研究购物出发时间的影 响因素。在利用赤池信息准则、Cox-snell 残差法比较拟合 优度后,最终选择 log-logistic 模型进行预测并制定了相应 的交通管理措施。
生存分析中的脆弱因子为不同个体或群体间的异质 性提供了很好的解决方案。该概念由 Vaupel 等人在 1979 年提出,将随机效应引入模型可以解决未观测到的因素对 模型结果产生的影响。生存分析中的脆弱因子一般服从伽 马或逆高斯分布。何清廉(2018)[9]在对信号交叉口黄灯期 间停车行为的研究中将脆弱因子引入对数正态模型中,打 破了驾驶员均质性的假设,使模型结果更加可靠。
3 拟合优度评估
3.1 赤池信息准则和贝叶斯信息准则
赤池信息准则(AIC;1973)和贝叶斯准则(BIC;1978) 是现阶段应用最广泛的模型选择标准,利用似然估计值比 较不同分布模型的拟合程度,都兼顾了模型简单性和拟合 优度之间的平衡,并带有惩罚项以防止过度拟合。从 Raftery(1995)[10]对 AIC 和 BIC 的比较中认为当样本量足够 大时,BIC 选择正确的模型而 AIC 选择了比真实模型更复 杂的模型。参数和半参数生存分析之间无法使用 AIC、BIC 进行横向比较。 AIC=-2lnL+2(k+c) (6) BIC=-2lnL+klnm (7) 其中 L 为似然函数,k 为模型协变量的个数,m 为样本 数量。
3.2 Cox-Snell 残差图
为评估加入协变量后的模型是否合适,比较参数、半 参数模型之间的拟合效果,Cox-snell 残差(Cox and Snell, 1968)[11]被应用于生存分析模型评价。 (8) 其中 代表 ta 时刻的累计风险函数,β 代表协变 量 X 的估计系数。
3.3 Harrell's C 指标
Harrell's C 指标(Harrell,1982)[12]针对右删失的比例 风险模型开发,后逐步扩展至 Cox 比例风险模型等。基于 生存模型预测的较早“死亡”受试者生存时间较短,反之亦 然这一特性,该统计量通过所预测的受访者死亡顺序与实 际一致的概率 C 来比较半参数生存分析的拟合效果。对任意 t>0,一致性的表达形式为其中 i,j 表示样本中的任意一对观测者;Ti,Tj 表示真实的“死亡”时间; 表示预测的死亡时间。当 C=0.5 时, 模型不足以基于随访数据进行预测;当 C=1 时,模型具有完全预测能力,可以很好的拟合生存数据。
公路论文投稿刊物:西南交通大学学报读者对象主要为国内外科技工作者、工程技术人员、高等院校理工科教师和学生等。
4 结束语
生存分析利用统计学相关理论,在探究生存时间影响 因素的过程中将事件结果与所经历时间相结合,这种独特性使其成为了现代统计学的一个重要分支而被广泛研究。 本文首先介绍了生存分析的基本概念,回顾了生存模型的 主要类型和适用性,最后总结了不同类型生存分析所适用 的拟合效果评估准则和指标。在探究生存模型在交通领域 具体应用的过程中,本文发现了现有研究的不足并结合实例进行案例分析,希望能为后续研究提供理论基础。
参考文献:
[1]熊励,陆悦,杨淑芬.城市道路交通拥堵预测及持续时间研究[J]. 公路,2017,62(11):125-134.
[2]石庄彬.基于生存分析的轨道交通客流高峰持续时间区间预测 [A]. 中国智能交通协会. 第十二届中国智能交通年会大会论文集 [C].中国智能交通协会:中国智能交通协会,2017:251-260.
[3]李志银.信号交叉口行人穿越行为建模与分析[D].北京交通大 学,2017.
[4]Cox DR. Regression models and life -tables. Journal of the Royal Sta- tistical Society. Series B,1972,34(2):187-220.
[5]赵海月.下雨天气对信号交叉口行人穿越安全行为的影响分析 [D].北京交通大学,2018.
作者:宫小雯,刘 锴