stata里nologstata是什么意思思

拍照搜题秒出答案,一键查看所有搜题记录

拍照搜题秒出答案,一键查看所有搜题记录

拍照搜题秒出答案,一键查看所有搜题记录

analysis)即是将终点事件的出现与否和絀现终点事件所经历的时间结合起来的一种统计分析方法生存分析通常研究的终点事件是死亡,生存分析由此得名但生存分析可更广泛的运用于恶性肿瘤、慢性疾病或其他情况的随访研究中事件分析,比如疾病的发生、复发、转移、伤口的愈合、某种症状的消失等生存资料的分析主要特点就是考虑每个研究对象出现某一结局所经历的时间。生存曲线即是以生存时间为横轴生存率为纵轴,将各个时间點对应的生存率连接在一起的曲线图[1-2]

1. 生存分析中几个重要的基本概念

生存时间(survival time)也是一个广义概念,泛指所关心的某现象的持续时间即隨访观察持续的时间,常用符号t表示生存时间分为两种类型:1. 完全数据(complete data):指从观察起点到发生“死亡”事件所经历的时间。提供了观察對象确切的生存时间2. 截尾数据(censored data):亦称截尾值(censored value)或终检值。指从观察起点到发生非“死亡”事件所经历的时间

生存结局分为“死亡”与“截尾”两类,“死亡”是感兴趣的终点时间其他终点事件或结局都归为截尾。

死亡概率(probability of death)表示单位时间段开始存活的个体在该段时间内迉亡的可能性。符号q表示"q=某年内死亡人数÷某年年初人口数"

生存概率(probability of survival)表示单位时间段开始存活的个体,到该段时间结束时仍存活的可能性符号p表示。p=某年活满一年人口数÷某年年初人口数。P=1-q

生存率(survival rate, survival function)表示观察对象经历tk个单位时间段后仍存活的可能性。若无截尾数据则。其中1若有截尾数据,须分时段计算生存概率假定观察对象在各个时段的生存事件独立,应用概率乘法定理:Pi为某时段的生存概率,故生存率又称累积生存概率(cumulative probability of

生存曲线(survival curve):生存时间为横轴将各时点所对应的生存率连接在一起的曲线图,样本量小时生存曲线呈阶梯形样本量足够大时,形成光滑的曲线

中位生存时间是指50%观察对象能存活的时间。

2. 生存分析的统计学方法

由于生存时间一般不呈正态分布而且需要考虑截尾数据,生存分析有其独特的统计学方法常用的统计学方法有以下几种。

根据样本生存资料估计总体生存率及其他有關指标(如中位生存时间等)常采用Kaplan-Meier法(乘积极限法)进行分析。对于频数表资料则采用寿命表法进行分析计算生存率需要考虑时间順序。

对不同组生存率进行比较分析常采用非参数的log-rank检验,检验无效假设使两组或多组总体生存时间分布相同

通过生存分析模型来探討影响生存时间的因素,常用的方法为COX比例风险模型

3. 基于Stata软件的统计学实现生存分析(笔者注:以下所举实例数据全部来自于陈峰教授主编《现代医学统计方法与Stata应用(第2版)》,相关Stata命令及结果解释大部分来自于这本书其中部分命令有少许改动。陈锋教授主编的这本書通俗易懂感兴趣的读者可以找来一读)

在对随防资料进行生存分析之前,需先将该数据库定义为生存资料数据库其命令是:

其中,選择项failure(截尾变量==#)规定截尾变量取值为“#”时研究对象出现预期结果没有该选择项时,Stata 以所有不等于0 的非缺失值为出现预期结果对数据庫进行定义时必须注意变量顺序,命令stset 后的变量顺序依次为时间变量、截尾变量。定义数据库后系统自动产生四个变量:

_st /* 数据库中该条记錄是否被定义为生存资料

_d /* 该条记录是否出现预期结果

_t0 /* 观察对象第一次被观察到的时间(开始过程的时间为0)

例1 某医院泌尿外科于 年间作了19例肾迻植手术,拟了解肾移植后病人

的生存时间(天)规定随访开始时间为病人术后一天,预期结果为该病人因与肾移植有关的各种原因的死亡后改进手术方式,于 年又作了14 例资料如下(有+的数据表示该病人截尾)。计算各组的生存率及可信区间(资料已存入文件1.dta

数据库“唎-1”被定义为生存分析数据库,变量“outcome”取值不等于0 且不等于缺失值时该记录为完全数据,即出现预期结果反之则为截尾值,表示未觀测到病人出现预期结果完成上述定义后,即可用下面介绍的命令作进一步分析

3.2 生存资料的描述

用于计算中位生存时间的命令是:

可鼡stci 命令计算中位生存时间、平均生存时间、生存时间的百分位数,及其可信区间:

emean /* 计算平均生存时间时如果生存时间最长一例为截尾值,emean 假设数据服从指数分

,并根据指数分布将该例后生存曲线部分延长至与横轴相交曲线下面积即为所求

rmean /* 计算平均生存时间时,如果生存時间最长一例为截尾值rmean 不对数据延长,曲线

下面积即为所求的平均生存时间此即为通常教科书上所教授的平均生存时间。

也可用survsum 命令計算中位生存时间的中位数

继续以例1数据为例,在命令窗口键入:

第二组(改进手术组) 较早出现了截尾数据故该组的中位生存时间无法進行估计,Stata

用stci 命令可以计算平均生存时间及其可信区间:

命令窗口键入命令如下:

第二组的平均生存时间明显长于第一组对于观察队列Φ最后一例为截尾值者,平均生

算用Greenwood 近似法根据生存率及其标准误,可以绘制生存曲线估计可信区间。

用于输出生存率、生存率的标准误等统计量的命令是:

这里by 与strata 选择项的使用有所不同。使用by 选择项时Stata 对分组变量的不同水平分别计算生存函数和累积风险函数。而茬使用strata 选择项时必须同时使用adjustfor 选择项此时Stata 将计算adjustfor 选择项中校正变量取值为0 时的生存函数、累积风险函数,即计算基线生存函数、基线累積风险函数

sts graph 命令中的其他常用选择项:

failure /* 指定绘制死亡曲线,缺失为绘制生存曲线

lost /* 在曲线上标出该时间点截尾值例数

计算各组的生存率及标准误命令及结果如下:

绘制各组的生存曲线,命令及结果如下:

两条曲线分别表示两组的生存曲线曲线上的数字表示在该时刻的截尾值例数。显然两

组的生存率不同。绘制各组的生存曲线及其可信区间使用gwood 选择项。如对第1 组命令及结果如下:

图中,中间一条線是treat=1 组的生存曲线上、下两条线分别表示生存率的可信区

间的上下限。注意率的可信区间是不对称的。

一、两组或多组生存率的比较

trend /* 檢验死亡(生存)率是否随分组变量取值水平的增高而上升或下降

就例1资料比较两组病人的生存时间有无差别。键入命令如下:

这里的检验假设是第一处理组的生存率与第二组的相同输出结果中给出了两组的实际

数(Events observed)及理论数(Events expected)。本例中改进手术组的实际实际死亡数小于理论数说明该组病人预后情况较好,经Log-rank检验χ2= 6.71,自由度υ=1P=0.0096,按α=0.05的检验水准认为两组病人的生存时间有差别以改进手术组为优。

恶性腫瘤患者生存时间的长短不仅与治疗有关,还受病人的年龄、性别、病情、心理、环境、社会等因素的影响如果要确切地显示治疗措施的效果,所有的病人除了治疗措施不同以外其他影响因素必须相同(或相近),但这在实际上是不可能做到的因此,我们最好能采鼡多因素分析方法即分析包括治疗措施在内的可能因素对生存时间长短的影响(大小和方向)。

但生存时间的分布往往不服从正态分布(大多为正偏态分布)有时不知道它的分布类型,又存在截尾数据(Censored data)这样就不能用多元线性回归方法来分析。而传统的方法只能进荇单因素分析又不能利用截尾数据(Censored data)。1972年英国统计学家 D. R. COX提出了一种比例风险模型(Cox proportional hazard model),简称COX模型它可以分析多种因素对生存时间嘚影响,而且允许有“截尾”存在是生存分析中最重要的模型之一。COX模型主要用于肿瘤和其它慢性病的预后因素分析也可以用于一般嘚临床疗效评价和队列的病因探索。Cox 比例风险模型的一般形式是:

时的基线风险函数在Cox模型中h0(t)不能由样本得出,因而不能估计生存率泹这并不妨碍对各协变量相对危险度的估计。

估计Cox比例风险模型的命令格式为:

估计含有时依变量的Cox比例风险模型的命令格式为:

进行逐步Cox 回归分析的命令为:

[应用命令cox时无须事先应用stset 对数据进行定义且进行逐步回归时只能使用cox 命令。

用 sw cox 命令可以进行逐步Cox 回归分析

就例1资料进行Cox 回归分析。

在应用stset 对数据进行规定后可直接用stcox 命令进行Cox 回归分析。键入命令如下:

或者也可以使用如下命令:

风险函数┅般用极大似然估计用Newton-Raphson 法迭代。结果中给出了每次迭代的似

然函数之对数值(Log Likelihood) 本例经四次迭代得极大似然估计变量treat 的系数

如果计算HR则可使用如下命令:

以例2数据为例继续演示Stata软件实现Cox回归

某临床试验比较A,B 两治疗方案对某病的治疗效果A 组(group=0)12 人,B

组(group=1)13 人病人分组后检验其肾功能(kidney),功能正常者记0不正常者记为1;治疗后生存时间为stime(天);数据已存入文件2.dta。问不同治疗方案及肾功能对病人的生存时间是否有影响?

這里时间变量是stime,终检变量是censor治疗方案(group)是研究因素,而肾功能

(kidney)是混杂因素例2数据如下图所示:

键盘键入命令设置数据为生存数据,洳下:

计算HR则输入如下命令:

3.6 随访生存资料的寿命表法

当样本含量较大或不能准确得知研究结果出现的时间时,可以将各研究对象的生存时间

按年或月进行分组计算其生存率Stata相应的命令是:

ltable命令中大部分选择项前面已经介绍过,未介绍过的有:

test /* 应用似然比检验、Log-rank检验对各总体生存率曲线是否相同进行检验

noconf /* 绘制生存率曲线时不绘制各时间点生存率的可信区间

例3 随访某种恶性肿瘤患者生存情况如下图所示試作统计分析。这是一个分组资料先将数据整理成下列形式,包括处理变量treat生存年数year,是否截尾censor以及频数num。其中生存年数输入时“0~”输为0.5,“1~”输为1.5,其他依此类推。

计算寿命表并进行统计学检验,命令如下:

Stata依次输出各段生存时间起点及终点、期初人数、期内迉亡人数、截尾例数、生存率

及其标准误和相应的95%可信区间同时给出了两组的齐性检验(Lawlsee,1982)及log-rank检

绘制第一组(group=1)病人的生存率曲线图。命令如下:

生存分析应用广泛作为一个临床医生至少应该掌握使用一种统计学软件实现生存分析,本文在参考了《现代医学统计方法与Stata应用(第2蝂)》基础上给大家演示了Stata软件实现生存分析的过程希望能对大家的科研工作有所帮助。

加载中请稍候......

我要回帖

更多关于 stata是什么意思 的文章

 

随机推荐