以前的那写cepson l801驱动下载怎么现在不管了,只可惜到现在wwWcepson l801驱动下载CoM还是不行

下载客户端X
& 电视播放器
电视播放器报价
已选条件:
产品类别:
操作系统:
输出分辨率:
参考价:¥298
参考价:¥449
参考价:¥198
参考价:¥309
参考价:¥299
参考价:¥299
参考价:¥299
参考价:¥388
参考价:¥499
参考价:¥258
参考价:¥349
参考价:¥179
参考价:¥349
参考价:¥399
参考价:¥698
参考价:¥299
参考价:¥299
参考价:¥3599
参考价:¥999
参考价:¥299
参考价:¥399
参考价:¥319
参考价:¥249
参考价:¥279
参考价:¥269
参考价:¥1169[即将上市]
参考价:¥2699
参考价:¥199
参考价:¥1999
参考价:¥5699
参考价:¥699
参考价:¥369
参考价:¥469
参考价:¥299
参考价:¥259
参考价:¥449
参考价:¥248
参考价:¥499
参考价:¥269
参考价:¥299
参考价:¥159
参考价:¥349
参考价:¥199
参考价:¥299
参考价:¥279
参考价:¥198
参考价:¥299
参考价:¥950
参考价:¥209
参考价:¥399
参考价:¥229
还有款电视播放器&&
大家电相关子类
厨卫电器相关子类
厨房小家电
生活家电相关子类
个人护理相关子类
相关类别:
热门类别:当前位置: >>
目前最详细的中文sas软件教程第五卷(共五卷)
返回总目录目 录第 24 章 24.1 24.2 24.3 第 25 章 25.1 25.2 25.3 25.4 第 26 章 26.1 26.2 26.3 26.4 26.5 第 27 章 27.1 27.2 27.3 第 28 章 28.1 28.2 28.3 28.4 28.5 28.6 第 29 章 29.1 29.2 29.3 29.4 第 30 章 30.1 30.2 SAS 系统内七种变异数分析程序概述........................................................................ 4 七种变异数分析的程序 ............................................................................................... 4 平衡的实验设计 ........................................................................................................... 4 一般线性模型 ............................................................................................................... 5 比较两组平均数的 t 检定 统计程序 PROCTTEST .............................................. 7 PROC TTEST 程序概述 ............................................................................................. 7 如何撰写 PROC TTEST 程序 ................................................................................... 7 输出文件概述 ............................................................................................................... 8 范 例....................................................................................................................... 9 平衡实验设计的变异数分析 统计程序 PROCANOVA......................................... 11 PROC ANOVA 程序概述 ......................................................................................... 11 名 词 解 释 ............................................................................................................... 11 各种统计模型 ............................................................................................................. 11 如何撰写 PROC ANOVA 程序 ............................................................................... 13 范 例..................................................................................................................... 21 变异数成份的分解 统计程序 PROCVARCOMP ................................................... 27 PROC VARCOMP 程序概述 .................................................................................... 27 如何撰写 PROC VARCOMP 程序 ............................................................................ 28 范 例..................................................................................................................... 29 混合式模型的变异数分析 统计程序 PROCMIXED ............................................. 33 PROC MIXED 程序概述 .......................................................................................... 33 名 词 解 释 ............................................................................................................... 33 MIXED 程序基本功能的示范 .................................................................................. 34 如何撰写 PROC MIXED 程序 ................................................................................ 38 范 例..................................................................................................................... 51 注 意 事 项 ............................................................................................................... 68 变异数分析的实验设计 统计程序 PROC PLAN .................................................. 70 PROC PLAN 程序的简介 ......................................................................................... 70 如何撰写 PROC PLAN 程序 .................................................................................... 71 范 例..................................................................................................................... 75 注 意 事 项 ............................................................................................................... 80 无参数的一因子变异数分析 统计程序 PROCNPAR1WAY ................................ 81 PROC NPAR1WAY 程序概述 .................................................................................. 81 如何撰写 PROC NPAR1WAY 程序 ........................................................................ 81
例..................................................................................................................... 83 30.3 范 30.4 注 意 事 项 ............................................................................................................... 91 
 第五部分 变 异 数 分 析
第 24 章SAS 系统内七种变异数分析程序概述24.1七种变异数分析的程序本节提纲契领地介绍 SAS 所提供的七个变异数 analysis of variance 分析的程序及 一些有关的统计观念 这七个程序简介如下 以 t 检定比较两组观察体的平均数 TTEST 适用于平衡的实验设计 ANOVA 功能甚广 可执行变异数分析 回归分析 共变量分析以及多变 GLM 量变异数分析 (归入第六部分第 31 章) 推算各类型变异数的值 VARCOMP 适用于固定与随机效果的混合式模型分析 MIXED 为实验计划产生随机的排列组合 PLAN 适用于无参数分析中单因变量之变异数分析 NPAR1WAY 这七个程序中 以 GLM 与 MIXED 两程序功能最广泛 其他则只适用于特殊的情 况 读者必须依照实验设计选用合适的 SAS 程序 变异数分析的用途在于解释我们观察 所得的数据 一般而言 这些数据是在不同的实验情况下收集来的 这些不同的情况会造 成数据间的异同 此称实验效果 (Treatment Effect) 但另有一部分的异同是与实验情况无 关的 此称随机误差 (Random Error) 所有变异数分析的精髓不外乎是选定合适的统计模 型 利用正确的 SAS 程序来推算出实验效果和随机误差的平均方 (Mean Square) 若以 MS(A) 表实验效果的平均方 以 MS(E) 表随机误差的平均方 则其比例会导出一个 F 分 配 F=MS(A) MS(E) F 的自由度随不同的实验设计而定 若 MS(A) 远超过 MS(E) (即 F 值远大于 1) 则我们说实验效果显著 反之 我们 说实验效果不显著 这个统计的理论是费契尔 (Fisher 1925) 所建立的 有关这个理论 最早的教科书是沙菲所著 (Scheffe 1959)24.2平衡的实验设计平衡的实验设计是指相等人数的实验 也就是说每一组 (或每一细格) 里的观察体个 数相同 若研究者的实验设计是平衡的 则你可以用较简单的 ANOVA 程序计算出变异 数分析中所有必需的统计值 而不必用到较费时费力的 GLM 程序 若把 ANOVA 程序 第 24 章 SAS 系统内七种变异数分析程序概述5用在不平衡的实验设计划 则结果会有误差 甚至可能导出负的平均方值24.3一般线性模型如果你的实验设计是不平衡的 则你不可用 ANOVA 程序 你极可能会用到 PROC GLM (一般线性模型程序) 或 PROC MIXED (混合式的线性模型) 在统计领域中的线性模型与解析几何中的线性函数或线性图有异同之处 相同之处 线性 一次 的或线性的函数关系 相异之处是 这个名词来表示一个 是它们都用 统计中所指的线性关系是指因变量与参数之间的线性关系 而非因变量与自变量之间的线 性关系 若以 X 代表自变量 Y 代表因变量 代表参数 E 代表随机误差 则下列三式 都称为线性模型 Yi =1 1X1 +22X2 + Ei X2 + Ei但下列三式则称为非线性模型Yi = e ( Yi = Yi =Yi = Yi =1 1X 21 +X2 + Ei211X1+2 X2)log(X1 ) ++ Ei2X1 +1 2X 2 + E或1X1?(e ?? e?2 X2许多的非线性模型可被转换成线性模型 否则它们无法用变异数分析法来处理 线性假设) + Ei线性假设是指参数间的线性组合而言 下面列举几种常见的表示法 H: 1= 2 = ... = 0 ; 或 H: L1 1 + L2 2 + L3 3 + ... +Lk k = 0 ; 或 是列向量) H: L = 0 (此处 L 是行向量 随机效果 随机效果一般是由随机因子导出 在农业经济研究上 农作物的产地 如 畦田或 耕地等) 通常被视为一个随机因子 (Random Factor) 在教育界 一个班级或学校或一群 学生则被看作是一个随机因子 随机因子的效果称为随机效果 关于这些随机因子的变异 数分析 SAS 预备有 VARCOMP 与 NESTED 两程序 另一程序 GLM 则只印出随机因 子的平均方值 但不推算各类型变异数的预计值 平均数的比较 如果数据中含多个平均数 而且读者已决定要比较哪两个平均数时 可用 GLM 程 6第五部分变异数分析序中的 CONTRAST 指令来检验这两个平均数之间是否有显著的差异 请读者注意 若 你反复地使用 CONTRAST 指令来测许多对平均数 则你的分析结果将失去真实性 这是 因为这种分析法可能让你犯了统计上所谓的第一类型错误 详情请见第 31 章 PROC GLM 的平均数比较部分无参数的变异数分析无参数的变异数分析并不要求数据符合常态分配的假设 因此数据不能以一般参数 分析的统计方法处理 在这种情况下 可用 NPAR1WAY 程序将数据转换成名次排列 (如 第一 第二等等) 然后进行无参数的单因变量变异数分析 二元或二元以上无参数 的变异数分析与 NPAR1WAY 相似 读者可先用 PROC RANK 把数据转换成名次 然后 再用一般的参数分析程序处理 如 TEST ANOVA 或 NESTED 等 
第 25 章比较两组平均数的 t 检定 TTEST统计程序 PROC25.1TTEST 程序旨在对 SAS 文件中的两个平均数执行 t 检定 这个 t 检定是单元变异 数分析的特殊例子 它的虚无假设是这两个平均数相等 t 检定有一个重要的假设 即 两组观察体所代表的母群 其变异数必须相同 这个 假设由 F 检定来鉴别 (Steel and Terrie 1980) 若此假设成立 则 SAS 可进一步算出 t 值 与其统计的显著程度 若此假设不成立 则 SAS 会算出 t 的近似值与其近似的自由度 自由度的近似值估计系采沙特斯威氏 (Satterthwaite 1946) 的方法 同时读者可要求根据 Cochran 与 Cox 1957 计算 t 检定之近似值的显著度 若读者有意进行一组平均数的 t 检定或配对组平均数比较的 t 检定 则应用 PROC MEANS 来进行 (见本章例二的示范) TTEST 程序只适用于两组独立的样本 PROC TTEST 程序概述25.2如何撰写 PROC TTEST 程序PROC TTEST 含四道指令 它们的格式如下PROC TTEST 选项串 CLASS 变量名称 VAR BY 变量名称串 变量名称串;上述四道指令不能重复出现 只有 PROC TTEST 与 CLASS 两指令是必须的 省略 PROC TTEST 后的指令出现次序可以随意安排 指令 #1 PROC TTEST 选项串 下面这两个选项可出现在 PROC TTEST 指令中 (1) DATA=输入文件名称 指明对那一个文件执行 t 检定 若省略此选项 则 SAS 会自动找出在此程序之 前最后形成的 SAS 文件 对它执行 t 检定 (2) COCHRAN 当两组数据的变异数据不相当时 这个选项可以正确地计算出 t 检定之近似值的 统计显著度 其理论基础是 Cochran 与 Cox 1957 年的著作不可 8第五部分变异数分析指令 #2CLASS 变量名称此变量旨在识别观察体所属的组别 因此变量只可有两个不同的值 (如 男 女或 1 0 等) 如果此变量的值是英文字母 如 MALE 或 FEMALE 则名字的长度不应超过 十六个字母 否则警告信息会出现指令 #3VAR 变量名称串指明对那些因变量的平均数执行 t 检定 若省略此指令 则 SAS 会视输入文件内 所有数值变量 (除 CLASS 指令里提到的变量外) 为因变量 然后针对每一数值变量执行 t 检定 指令 #4SAS 依据此指令所列举的变量将文件分成几个小的文件 然后对每一个小的文件分 别执行 t 检定 当读者选用此指令时 文件内的数据必须先按照 BY 变量串的值做由小 到大的重新排列 这个步骤可藉 PROC SORT 达成 BY 变量名称串25.3输出文件概述针对每一个参与 t 检定的因变量 TTEST 程序会印出下列的统计值 1. 该因变量的名称 2. 组别名称 3. 有效观察体个数 (N) 4. 平均数 (MEAN) 5. 标准差 (STD DEV) 6. 标准误差 (STD ERROR) 7. 最小值 (MINIMUM) 8. 最大值 (MAXIMUM) 当等值变异数的假设不成立时 印出以下的统计值 9. t 检定的近似值 (T) 10. 近似的自由度 (DF) 11. 双尾检定的显著程度 (PROB&T) 当等值变异数的假设成立时 SAS 改印 12. t 检定的正确值 (T) 13. 正确的自由度 (DF) 14. 双尾检定的显著程度 (PROB&T 与上述 (11) 同) 等值变异数假设的检验结果是以下列的统计值来表示 15. 鉴别等值变异数假设的 F' 值 (F') 16. F' 检定的自由度 (DF) 17. 大于现有 F' 值的单尾检定的显著程度 (PROB&F')
第 25 章比较两组平均数的 t 检定统计程序 PROC TTEST925.4范例例一 以 PROC TTEST 比较两个独立样本的平均数本例采用一班学生的体育成绩来示范 PROC TTEST 这一班学生有男有女 我们想 知道到底男女学生在网球的球技上是否有显著的不同 虚无假设则是男女球技相同 程 序 ; RUN;DATA SCORES; INPUT SEX $ SCORE @@; CARDS;F 75 F 76 F 80 F 77 F 80 F 77 F 73 M 82 M 80 M 85 M 85 M 78 M 87 M 82PROC TTEST;CLASS SEX; VAR SCORE;TITLE 'GOLF SCORES';结 果 首先 看 F' 对变异数等值的假设检定 F'=1.53 未达显著程度 因此 接下来我们 可以接受 Variances=Equal 的 t 检定值 T=-3.8288 (自由度=12.0) 达 0.0024 的显著程 度 所以 结论是男女在网球的球技上有高下之分报表 25.1以 PROC TTEST 比较两个独立样本的平均数GOLF SCORES TTEST PROCEDUREVariable: SCORE SEX N F 7 M 7 Varianc es Unequal Equal T -3.8Mean 76.. DF 11.5Std Dev 2.. Prob&|T| 0.Std Error 0..Minimum 73.. Maximum 80..0.0024 DF=(6,6) Prob&F'=0.6189For H0:Variances are equal,F'=1.53例二 以 PROC MEANS 比较配对组的平均数 当两组数据之间有相关时 ( 如 夫妻文件的数据 或同一班学生前后两次考试的成 绩) 则读者应用 PROC MEANS (而非 PROC TTEST) 来比较这两组之间平均数的差异 本例另创一个新变量 (DIFF) 来代表两次考试的平均数差 PROC MEANS 的两个选项 T 10第五部分变异数分析与 PRT 引导 SAS 进行配对组的 t 检定而且计算其统计显著度 程 序DATA A; INPUT ID PRETEST POSTTEST; DIFF=POSTTEST-PRETEST; CARD; 1 80 82 2 73 71 3 70 95 4 60 69 5 88 100 6 84 71 7 65 75 8 37 60 9 91 95 10 98 99 11 52 65 12 78 83 13 40 60 14 79 86 15 59 62 ; PROC MEANS MEAN STDERR T PRT; VAR DIFF; TITLE 'PAIRED-COMPARISONS T TEST'; RUN; 结 果 分析结果显示后测比前测平均高出 7.93 分 证明达 0.0079 的显著度报表 25.2这个差异经 t 检定检验后 (T=3.09)以 PROC MEANS 比较配对组的平均数PAIRED-COMPARISONS T TEST Analysis Variable : DIFF NObs 15 Mean 7.9333333 StdError 2.5643465 T 3.0937057 Prob&|T| 0.0079 第 26 章平衡实验设计的变异数分析 统计程序 PROC ANOVA26.1PROC ANOVA 程序概述ANOVA 程序主要是对平衡实验设计的数据执行变异数分析 但也可以处理拉丁方格 实验设计 完全的镶嵌设计 (Completely Nested Design) 细格之间人数成比例的实验设计 等 所谓的平衡实验设计是指组间 (或细格间) 人数相等的实验设计 不平衡的实验设计 则不可用 ANOVA 程序来处理 要用 GLM 程序 (见第 31 章)26.2 名 词 解 释自变量与因变量自变量又称独 立变 量 定 性变量 (Qualitative Variable) 分类变 量 (Classification Variable) 或是类别变量 (Categorical Variable) 其数值多半是不连续的 反之 因变量 又称反应变量 (Response Variable) 其数值则是连续的 实验效果变异数分析的目的在于找出自变量与因变量之间的线性关系 或说自变量对因变量 产生的实验效果 这种实验效果可粗分为三种 即 主效果 交互效果 与镶嵌效果 主 效果以自变量的英文字母代表 如 A B 等 交互效果以星号联接的自变量表示 如 A*B 镶嵌效果以小括号表示 如 A(B) 表示 A 效果是镶嵌在 B 效果内26.3各种统计模型 上述的三种实验效果分别与变异数分析法中不同的统计模型相对应 计的模型分述如下 主效果的统计模型现将这三种统假设有一个平衡的实验设计 含三个自变量 (分别以 A B C 表示) 其因变量以 Y 表示 则此三因子主效果变异数分析可以下面的程序来执行PROC ANOVA; CLASS A B C; MODEL Y = A B C; 12第五部分变异数分析交互效果的统计模型 这种模型适用于含两个或两个以上自变量的实验设计 其对应的主效果及交互效果可用下列的程序来计算PROC ANOVA;若以上述的三因子设计为例CLASS A B C; MODEL Y = A B C A*B B*C A*C A*B*C;当实验设计含多个自变量时 交互效果会变得繁杂 此时可用竖号 | 来简化 比方 说 上例的 MODEL 指令可利用竖号简化如下 等于 MODEL Y = A|B|C; MODEL Y = A B C A*B B*C A*C A*B*C; 另外举几个使用竖号的例子如下 等于 A C(B) A*C(B) A|C(B) 等于 A(B) C(B) A*C(B) A(B)|C(B) A(B)|B(D E) 等于 A(B) B(D E) 等于 A C B(A) A*C B*C(A) A|B(A)|C 其他有关竖号的使用规则 请参考第 16 章 PROC CATMOD 第 16.3 节的内容 此外 @ 的符号表交互作用的最高元次 因此 等于 A B C A*B A*C B*C A|B|C@2 A|B(A)|C@2 等于 A B(A) C A*C A|B|C|D@2 等于 A B A*B C A*C B*C D A*D B*D C*D 镶嵌效果的统计模型以上述三因子变量的实验设计为例 我们现在假设自变量 C 是镶嵌在另外两个自变 量 A 与 B 内 则可用下列的 SAS 程序来执行变异数分析PROC ANOVA; CLASS A B C; MODEL Y = A B C(A B); 由上式可知 C 是写在 A 与 B 的小括号外面 与 B 的交互作用内 其他注意事项 示这种写法表示 C 效果是镶嵌在 A假如有一个实验设计同时包含了交互与镶嵌效果 则读者可同时使用 * 与 ( ) 来表 如PROC ANOVA; CLASS A B C; MODEL Y = A B(A) C(A) B*C(A);B*C(A) 表示 B 与 C 的交互效果是镶嵌在 A 的主效果里 第 26 章平均实验设计的变异数分析统计程序 PROC ANOVA13值得读者注意的是 当 MODEL 指令中省略一些效果时 这些被省略的效果会自动 与细格内的误差 即 Within-Cell Error) 协调 根据这个原则 下面两道指令所表示的统 计模型是完全相同的CLASS A B; MODEL Y = A B(A);等于上面两段指令皆省略了 B 的主效果 了 B 的主效果)26.4 CLASS A B;MODEL Y = A A*B;所以它们的细格内的误差值均相等 (因都包含如何撰写 PROC ANOVA 程序PROC ANOVA 含十道指令 它们的格式如下PROC ANOVA CLASS MODEL MEANS ABSORB FREQ TEST MANOVA 选项串变量名称串因变量名称串=实验效果串 (@)/ 选项串 实验效果串 / 选项串 变量名称串 变量名称 H= 效果名称 H= 效果名称E= 效果名称E= 效果名称 M= 变量的转换式PREFIX= 新变量的名称代号 REPEATED BY 重复变量的名称 变量名称串 组数据(组名)MNAMES= 新变量的名称串 / 选项串变量的转换 / 选项串 CLASS 指令必须出现在 MODEL 指令之前 如果选用 TEST MANOVA 指令 则 它们必须出现在 MODEL 指令之后 MEANS TEST 及 MANOVA 等指令可重复使用 其他指令则只能出现一次 指令 #1 PROC ANOVA 选项串 下面四个选项可放在 PROC ANOVA 指令之后 (1) A DATA= 输入文件名称 指明对那一个 SAS 文件执行 ANOVA 分析 若省略此选项 则 SAS 会自动找 出在此程序之前最后形成的 SAS 文件 对它执行 ANOVA 分析 14第五部分变异数分析(2) MANOVA 要求 PROC ANOVA 将含一个或一个以上因变量遗漏数据的观察体剔除 当读者 以交互式 (Interactive Mode) 方式进行多变量的变异数分析时 最好界定此选项 (3) MULTIPASS 要求 PROC ANOVA 在必要情况下重读输入文件内的数据 由于这个选项会占用 极多的记忆体 同时耗时很多 除非必要 读者可以省略此选项 (4) OUTSTAT=(含分析结果的) 输出文件名称 这个选项会界定一个含分析结果的输出文件 此输出文件将含离差平方和 (SS) F 检定值 以及各实验效果的显著程度 若读者同时界定 MANOVA 指令中的 CANONICAL 选项但未界定 M= 的选项 则典型相关分析的结果也会纳入此输 出文件内指令 #2此指令指明上述的文件中哪些变量是自变量 自变量可以是数值的 (如 1 代表男 2 代表女) 或文字的 (如 MALE 代表男 FEMALE 代表女) 若是文字变量 则其长度 不可超过十六个字母 指令 #3 MODEL 因变量名称串=实验效果串 (@) 选项串 CLASS 变量名称串有关删除号 (/) 前 因变量= 实验效果 的部分 读者必须自行决定适合的统计模型 然后根据本章第 26.3 节所介绍的原则写出 @ 符号可以限制交互作用的最高元次 例 如 A|B|C|D@2 则表示只需计算两两自变量相乘的交互作用即可 至于删除号 (/) 之后的 选项有两个 (1) A NOUNI 抑制单变量变异数分析结果的印出 这个选项适用于多变量的变异数分析或重复 观察实验中有关重复变量的分析报表 (2) INTERCEPT (或 INT) 要求 SAS 把线性模型内的截距 (亦即数据的总平均数) 当成一个参数 同时对这 个截距作是否为零的假设统计检定指令 #4MEANS 实验效果串 选项串 此指令的前半部 (删除号之前) 是用来要求 ANOVA 程序算出某些自变量 (和其交互 作用或镶嵌作用) 中各组 (或细格) 的平均数 比方说我们可用下列的 SAS 程序算出文 件中男人 女人 黑人 白人 男黑人 男白人 女黑人及女白人在因变量年薪 (SALARY) 上的平均数PROC ANOVA; CLASS SEX RACE; MODEL SALARY = SEX RACE; MEANS SEX RACE SEX*RACE; 第 26 章平均实验设计的变异数分析统计程序 PROC ANOVA15删除号 (/) 之后可用的选项有二十四个 前十七个选项分别对 MEANS 指令中所列 的主效果平均数执行不同的显著性检定 以上例而言 MEANS 指令会比较男与女 黑人 与白人之间的年薪差异 后七个选项则与统计检定的各项事宜有关 (1) A BON 执行显著性 t 检定 其理论基础是班弗尼氏的不等律 (Bonferroni Inequality) (2) DUNCAN 执行唐肯氏多范围检定 (Duncan's Multiple-Range Test) (3) DUNNETT (控制组组别) 这个选项界定唐那氏的两组平均数之双尾检定 唐那氏 (Dunnett) 的检定依据 t 分配而且必须是实验组与控制组平均数的比较 因此 括号内必须指明控制组的 组别 请看下面的程序 根据这个指令的语法 A 效果的第 CONTROL 组就是控制组 是以数字来表示的 (如 2) 则不必再加单引号 如MEANS A/ DUNNETT(2);MEANS A/DUNNETT ('CONTROL');这个选项的控制组一般是设定在第一组 (内设值) 同时在括号内提及 如若控制组的组别MEANS A B C/DUNNETT('FIRST' 'SECOND' 'THIRD');若控制组不只一组时读者可根据上述指令的语法 A 效果的控制组是第 FIRST 组 SECOND 组 C 效果则是第 THIRD 组(4) DUNNETTL (控制组组名) 这个选项界定唐那氏的两组平均数之单尾检定 而且预期的差异必须是负值 (亦 即实验组的平均数小于控制组的平均数) 因此临界值订在 t 分配的下端 有关控制组的内设值以及撰写语法 请参见上面 (3) DUNNETT 的说明 (5) A DUNNETTU (控制组组名) 这个选项界定唐那氏的两组平均数之单尾检定 而且预期的差异必须是正值 (亦 即实验组的平均数大于控制组的平均数) 因此临界值订在 t 分配的上端 有关控制组的内设值以及撰写语法 请参见上面 (3) DUNNETT 的说明 (6) GABRIEL 执行贵博氏的多重比较 (Gabriel's Multiple-Comparison Procedure) (7) REGWF 执行 Ryan-Einot-Gabriel-Welsch 的 F 检定 (8) REGWQ 执行 Ryan-Einot-Gabriel-Welsch 的 t 检定 (9) SCHEFFE 执行沙菲氏 (Scheffe) 的多重比较检定B 效果的控制组是第
16第五部分变异数分析(10) SIDAK 执行 Sidak 的两组平均数的 t 检定 (11) SMM [或 (12) GT2] 执行 Sidak 的独立样本 t 检定 当两组人数不等时 此法也就是哈氏 (Hochberg) 的 GT2 法 (13) SNK 执行纽曼-库尔 (Newman-Keuls) 的两组平均数差的 t 检定 (14) T [或 (15) LSD] 执行配对组 t 检定 因为 ANOVA 所处理的是平衡的设计 故其结果与费契尔 的最小显著差 (LSD) 的检验结果相同 (16) TUKEY 执行土其氏 (Tukey) 的 HSD 检定 (17) WALLER 执行 Waller-Duncan K-ratio 的 t 检定 (18) ALPHA= P 界定统计检验的显著程度 内设值是 .05 当上面选项与选项 (2) DUNCAN 并 用时 ALPHA 的值必须是 .10 .05 或 .01 三者之一 与上面其他检定选项并 用时 ALPHA 可以是 0.0001 与 0.9999 间任何的值 (19) LINES 将读者选用的显著性检定的分析结果 (即各平均数) 作由大到小的排列 若某一 对平均数之间无显著的差异 则 SAS 将它们印在同一行上 并以虚线将它们与 其它有显著差异的平均数分开 当读者选用 DUNCAN REGWF REGWQ SNK 或 WALLER 等检定时 此选项会自动被包括在内 否则读者必须另外附加 此选项最适用于平衡的实验设计以及组数少于 24 的平均数比较 若细格内的人 数不等 则 ANOVA 程序计算各细格人数的调和平均数 (Harmonic Mean) 并 用此数来比较主效果的平均数差异 当细格间人数差异太大时 则某些比较的结 果会不够严谨 此选项不可与 (3) DUNNETT (4) DUNNETTL 或 (5) DUNNETTU 联用 (20) CLDIFF 将 BON GABRIEL SCHEFFE SIDAK SMM GT2 T LSD 或 TUKEY 显 著性检定的结果用信赖区间的方式表示 当实验设计是一个不平衡的设计时 CLDIFF 选项会自动被包括在内 当读者选用 DUNCAN REGWF REGWQ SNK 或 WALLER 时 则须另外附加 (21) CLM 将 MEANS 指令中所提到的效果的各组平均数以信赖区间的方式表示 此选项 必须与 BON GABRIEL SCHEFFE SIDAK SMM T 以及 LSD 等联用 (22) NOSORT 与上述 CLDIFF 或 CLM 选项合用 抑止平均数按大小重新作排列 
第 26 章平均实验设计的变异数分析统计程序 PROC ANOVA17(23) E=效果名称 此选项界定上述各显著性检定的分母 若省略此选项 则实验设计的误差 (或余 差) 的平均方 (MS Residual) 就自动成为分母 (24) KRATIO=正整数 与 WALLER 选项联用 这个比例 (第一类型错误 / 第二类型错误) 的值若订为 50 100 或 500 则大约与 ALPHA 值 .10 .05 .01 相对应 这个选项的内设 值是 100指令 #5此指令的用途旨在节省计算时间与电脑的记忆储存量 详情请见第 31 章 (PROC GLM) 的 31.8 节 (ABSORB 指令及其使用方法) 请读者注意 当选用此指令时 文件中的数据必须依 ABSORB 指令中的变量做由 小到大的排列 而且这些变量不可出现在 CLASS 或 MODEL 指令内 否则会产生错误 的平方总和 指令 #6 FREQ 变量名称 ABSORB 变量名称串此变量的值就是文件中各观察体重复出现的次数 指令 #7 TEST H 效果名称 E 效果名称一般而言 SAS 的变异数分析自动采用误差 (或余差) 的平均方 (MS Residual) 作为 其中 F 检定的分母 读者可藉此指令自订 F 检定的分子 分母以进行不同的 F 检定 H= 分子 而 E= 分母 请看下例PROC ANOVA; CLASS A B C; MODEL Y = A|B(A)|C; TEST H = A E= = B(A); [所以 F = A/B(A)] TEST H = C A*C E = B*C(A); [所以 F = C/B*C(A) F = A*C/B*C(A)]指令 #8MANOVA H 效果名称E 效果名称M 变量的转换式 PREFIX 新变量的名称代号 MNAMES 新变量的名称串 选项串 当 MODEL 指令中含一个以上的因变量时 读者可利用 MANOVA 指令 要求执行 多变量变异数分析 (Multivariate Analysis of Variance) MANOVA 指令的写法示范如下PROC ANOVA; CLASS A B; MODEL Y1-Y5 = A B(A); MANOVA H = A E = B(A) / PRINTH PRINTE; MANOVA H = B(A) / PRINTE;
18第五部分变异数分析 MANOVA H = A E = B(A) M = Y1-Y2 PREFIX =DIFF; Y2-Y3 Y3-Y4 Y4-Y5上列的程序里 由于在 MODEL 指令中有五个因变量 (Y1 Y2 Y3 Y4 Y5) 故 可利用 MANOVA 指令要求执行多变量变异数分析 第一个 MANOVA 指令中 H= A 规定 F 检定的分子是主效果 A E=B(A) 规定 F 检定的分母是镶嵌效果 B(A) 删除号 (/) 后的两个选项要求 ANOVA 程序印出 H 矩阵 (导源于 F 检定的分子 在本例中即是主效果 A) 以及 E 矩阵 [导源于 F 检定的分母 在本例中是镶嵌效果 B(A)] 第二个 MANOVA 指令中 H=B(A) 规定 F 检定的分子是镶嵌效果 B(A) 由于指 令中未指明分母 故误差的平均方便自动成为此 F 检定的分母 同时 误差的矩阵也将 被印出 第三个 MANOVA 指令与第一个指令类似 但它额外地要求四对平均数的比较 (即 M= Y1-Y2 Y2-Y3 Y3-Y4 Y4-Y5) PREFIX= DIFF 规定这四对比较的名称将分别是 DIFF1 DIFF2 DIFF3 与 DIFF4 此外 让我们来讨论 M= 变量的转换式 这一部分的写法 M= 转换变量 {± 转换变量} 转换变量 可以是原因变量或是常数乘以原因变量 {} 中的部分可有可无 在此 若选项 M=中含一个以上的变量转换式 则以逗号 ( ) 相隔 选项 M= 之后也可直接以系数矩阵的横列来表示 前例中的程序若改用这种方式 则应该是 MANOVA H=A E=B(A) M=(1 -1 0 0 0 1 -1 0 0 0 0 01 -1 01 -1)0 0 0PREFIX=DIFF;在此必须注意的是 每一横列所含的系数必须等于因变量的数目 而且在每一横列 后要加上逗号分隔 有时 你或许希望进行趋势分析 (Trend Analysis) 下面示范此类分析的 ANOVA 程 序PROC ANOVA; CLASS GROUP; MODEL D1-D4= GROUP; MANOVA H= GROUP M= 3*D1-D2+D3+3*D4 D1-D2-D3-D4 -D1+3D2-3D3+D4 MNAMES= LINEAR QUADRTIC CUBIC / PRINTE; 上例 MANOVA 指令中的选项 MNAMES= 表明此趋势分析包含三个检定 即线性 的 (一次方) 抛物线性的 (二次方) 以及 S 型的 (三次方) 其他的选项与前相同 除了上述两个例子所示范删除号 (/) 前的 MANOVA 指令外 下面五个选项可置于 第 26 章平均实验设计的变异数分析统计程序 PROC ANOVA19删除号 (/)之后 (1) A PRINTH 要求印出被测效果 (即 F 检定中的分子) 的矩阵 (2) PRINTE 要求印出 F 检定中分母的矩阵 (3) ORTH 规定 M= 所构成的平均数比较是经过标准化正交 (Orthonormalization) 的转换 (4) CANONICAL 对 H 与 E 矩阵执行典型分析(此分析的结果会与另一统计程序 PROC CANDISC 类似) 并印出分析的结果 (5) SUMMARY 印出每一因变量的变异数分析摘要表 如果与选项 M= 联用时 此指令印出 M 矩阵中所转换的每一变量的变异数分析摘要表 指令 #9REPEATED 重复变量的名称 组数 组名假设有三种实验在四个不同的时间进行 则每一位受试有十二个分数 假如这十二 个分数分别以 Y1-Y12 表示 则下面的指令可代表这十二个分数的统计分析REPEATED TRIAL 3 (A B C) TIME 4 (T1 T2 T3 T4);Y1 1 1 Y2 1 2变量的转换 选项串这个指令言简意赅的说明了下列的数据结构因变量 TRIAL 的值 TIME 的值 Y3 1 3 Y4 1 4Y5 2 1Y6 22现在让我们利用这个例子来解释 REPEATED 指令的写法 重复变量的名称 即上例中的 TRIAL 及 TIME 若有两个以上重复变量 则第一个重复变量的组数应 是最少的 重复变量必须与因变量有关 重复变量的名称不可以和输入文件内任何变量的 名称相同 它的长度也不可超过八个字母 组数 界定上述重复变量的组数 (若该变量的组数为 1 时 可以省略此选项) 从上面的例 子 我们可看出重复变量 TRIAL 有三组 而 TIME 有四组 所以它们的排列组合共产 生十二个分数 (以 Y1-Y12 表之) (组名) 这个选项的值必须包含在括号内 括号内的值用来标明组别 其个数须与组数吻合 如 TRIAL 这个重复变量有三组 即 A B 与 C 组名与组名之间应以空格分隔 如 TRIAL(A B C) 变量的转换 下面的变量转换均以 1 个自由度为原则Y7 2 3Y8 2 4Y9 3 1Y10 Y11 Y12 3 2 3 3 3 4
20第五部分变异数分析(1) A POLYNOMIAL 产生多项式的正交比较 如 直线式 抛物线式 及三次方式的比较 (2) HELMERT 比较同一变量内一组平均数与其后各组平均数的平均 如 TRIAL 中 比较 A 组 平均数及 B C 两组平均数的平均 (3) PROFILE 比较同一变量内相邻两组的平均数 如 TRIAL 中 比较 A 与 B B 与 C 的 平均数 (4) CONTRAST (参考组之组名或组别) 读者先选定变量中的某一组为参考组 (其组名或组别出现在此选项的括号内) 然 参考组的内设值是最后一组 如 后其他各组依序与此参考组做比较 CONTRAST (A) 表示 A 是参考组 所以比较 A 与 B A 与 C 的平均数 然 而 CONTRAST (2) 则表示第二组与其他组的平均数一一作比较 (5) MEAN (参考组之组名或组别) 比较同一变量内某一组平均数与其他各组的平均数 但不比较参考组平均数与其 他各组平均数的平均 参考组的内设值是最后一组 如 MEAN (C) 表示 TRIAL 变量下的 C 组是参考组 所以比较 A 组平均数与 B C 两组平均数的平均 以及 B 组平均数与 A C 两组平均数的平均 但不比较 C 组平均数与 A B 两 组平均数的平均 又如 MEAN (2) 则表示第二组是参考组 因此 不比较第二 组平均数与其他组平均数的平均 请读者注意 指令中若含一个以上的重复变量 则以逗号分隔这些变量 每一变量内 的资料 如 名称 组数 (组别) 变量的转换 是以空格分隔的 删除号 (/) 后的选项 有下列八个 (1) A NOM 不印出多变量变异数分析的结果 只印出单变量变异数分析的结果 (2) NOU 与上述选项相反 不印出单变量变异数分析的结果 只印出多变量变异数分析 的结果 (3) PRINTM 印出变量转换的 M 矩阵 (详情请见第 31 章 GLM 程序的介绍) (4) PRINTH 印出多变量变异数分析的分子矩阵 (5) PRINTRE 印出多变量变异数分析的分母矩阵 当统计假设之间彼此不独立时 此选项同时 进行球形假设 (Sphericity) 的检定 (6) PRINTV 印出每一个多变量检定的特性根与特性向量 (7) SUMMARY 印出每一个变量转换式的变异数分析摘要表 
第 26 章平均实验设计的变异数分析统计程序 PROC ANOVA21(8) CANONICAL 针对因变量所导出的 H 与 E 矩阵进行典型分析 CANDISC 的结果相似 指令 #10 BY 变量名称串其 分 析 结 果 与 PROCSAS 依据此指令所列举的变量将文件分成几个小的文件 然后对每一个小的文件分 别执行 ANOVA 分析 当读者选用此指令时 文件内的数据必须先按照 BY 变量串的值 做由小到大的重新排列 这个步骤可藉 PROC SORT 达成26.5例一 一因子的单变量变异数分析与平均数的比较 本文件 (CLOVER) 包含一个自变量及一个因变量 自变量是苜蓿的培养基 下分六 种 ( 即 3DOK1 3DOK4 3DOK5 ... COMPOS 等) 因变量是红色苜蓿内氮气的含 量 由于这是一个平衡的实验设计 (每一培养基组内有四株苜蓿) 我们用 ANOVA 程序 执行单因子变异数分析 并比较各培养基组的平均氮气含量 程 序 范 例3DOK1 3DOK5 3DOK4 3DOK732.6 24.8 19.4 21.0DATA CLOVER; CARDS; 19.4 3DOK1 17.7 3DOK5 17.0 3DOK4 20.4 3DOK7INPUT STRAIN $ NITROGEN @@;3DOK1 3DOK5 3DOK4 3DOK727.0 3DOK127.9 3DOK5 9.1 3DOK4 20.5 3DOK73DOK13 14.3 3DOK13 14.4 COMPOS 17.3 COMPOS 19.4 ; PROC ANOVA; CLASS STRAIN; MODEL NITROGEN=STRAIN;3DOK13 11.8 3DOK13 11.6 3DOK13 14.2 COMPOS 19.1 COMPOS 16.9 COMPOS 20.832.1 3DOK1 25.2 3DOK533.0 24.3 15.8 18.611.9 3DOK418.8 3DOK7 MEANS STRAIN / LSD TUKEY CLDIFF; RUN;结 果 六组含氮量经 F 检定后证明不尽相同 (P& 0.0001) LSD 与 TUKEY 事后检定均发 现 3DOK1 组与其他五组的含氮量有显著的不同 3DOK5 组与 3DOK4 3DOK13 两组 亦有显著的不同 3DOK7 组与 3DOK5 组的平均数近似 3DOK4 与 3DOK13 两组的结 果亦十分接近 其他平均数的比较在这两个事后检定的过程里有出入 不能达成共识 22第五部分变异数分析 报表 26.1 一因子的单变量变异数分析与平均数的比较Analysis of Variance Procedure Class Level Information Class Levels 6 Values 3DOK1 3DOK13 3DOK4 3DOK5 3DOK7 COMPOSSTRAINNumber of observations in data set = 30 Source Model Error Corrected TotalAnalysis of Variance ProcedureDependent Variable: NITROGEN DF 5 24 29 Sum of Squares 847..9.5736667 C.V. 17.26174 Mean Square 169..7721667 F Value 14.39 Pr & F 0.0001R-Square 0.749877Dependent Variable: NITROGEN Source DF Anova SS STRAIN 5 847.0416667Root MSE 3.431059NITROGEN Mean 19.8766667Analysis of Variance Procedure T tests (LSD) for variable: NITROGEN NOTE: This test controls the type I comparisonwise error rate n the experimentwise error rate. Alpha= 0.05Confidence= 0.95df= 24MSE= 11.77217 Critical Value of T= 2.06390 Least Significant Difference= 4.4786 Comparisons significant at the 0.05 level are indicated by '***'. Lower Difference Upper STRAIN Confidence Between Confidence Comparison Limit Means Limit *** 3DOK1 - 3DOK5 0.361 4.840 9.319 *** 3DOK1 - 3DOK7 4.481 8.960 13.439 *** 3DOK1 - COMPOS 5.641 10.120 14.599 3DOK1 - 3DOK4 9.701 14.180 18.659 *** *** 3DOK1 - 3DOK13 11.081 15.560 20.039 3DOK5 - 3DOK1 -9.319 -4.840 -0.361 *** 3DOK5 - 3DOK7 -0.359 4.120 8.599 *** 3DOK5 - COMPOS 0.801 5.280 9.759 3DOK5 - 3DOK4 4.861 9.340 13.819 *** *** 3DOK5 - 3DOK13 6.241 10.720 15.199 3DOK7 - 3DOK1 -13.439 -8.960 -4.481 *** 3DOK7 - 3DOK5 -8.599 -4.120 0.359 3DOK7 - COMPOS -3.319 1.160 5.639 3DOK7 - 3DOK4 0.741 5.220 9.699 *** 3DOK7 - 3DOK13 2.121 6.600 11.079 ***Mean Square 169.4083333F Value 14.39Pr&F 0.0001-5.641 -0.801 3.319 8.539 9.919 -9.701 -4.861 -0.741 0.419 5.859 -11.081 -2.121 -0.961 *** *** *** *** *** ***COMPOS COMPOS COMPOS COMPOS COMPOS 3DOK4 3DOK4 3DOK4 3DOK4 3DOK4 3DOK13 3DOK13 3DOK13- 3DOK1 - 3DOK5 - 3DOK7 - 3DOK4 - 3DOK13 - 3DOK1 - 3DOK5 - 3DOK7 - COMPOS - 3DOK13 - 3DOK1 - 3DOK5 - COMPOS-14.599 -9.759 -5.639 -0.419 0.961 -18.659 -13.819 -9.699 -8.539 -3.099 -20.039 -15.199 -9.919-10.120 -5.280 -1.160 4.060 5.440 -14.180 -9.340 -5.220 -4.060 1.380 -15.560 -6.600 -5.440*** *** *** 第 26 章3DOK13 - 3DOK4平均实验设计的变异数分析-5.859 -1.380统计程序 PROC ANOVA3.09923Tukey's Studentized Range (HSD) Test for variable: NITROGEN NOTE: This test controls the type I experimentwise error rate. Alpha= 0.05Confidence= 0.95df= 24MSE= 11.77217 Critical Value of Studentized Range= 4.373 Minimum Significant Difference= 6.7095 Comparisons significant at the 0.05 level are indicated by '***'. SimultaneousSimultaneous Lower Difference Upper STRAIN Confidence Between Confidence Comparison Limit Means Limit 3DOK5 3DOK5 3DOK5 3DOK5 3DOK5 3DOK7 3DOK7 3DOK7 3DOK7 3DOK7 COMPOS COMPOS COMPOS COMPOS COMPOS 3DOK4 3DOK4 3DOK4 3DOK4 3DOK4 3DOK13 3DOK13 3DOK13 3DOK13 3DOK133DOK1 3DOK1 3DOK1 3DOK1 3DOK1- 3DOK5 - 3DOK7 - COMPOS - 3DOK4 - 3DOK13 - 3DOK1 - 3DOK7 - COMPOS - 3DOK4 - 3DOK13 - 3DOK1 - 3DOK5 - COMPOS - 3DOK4 - 3DOK13 - 3DOK1 - 3DOK5 - 3DOK7 - 3DOK4 - 3DOK13 - 3DOK1 - 3DOK5 - 3DOK7 - COMPOS - 3DOK13 - 3DOK1 - 3DOK5 - 3DOK7 - COMPOS - 3DOK4-1.869 2.251 3.411 7.471 8.851 -11.549 -2.589 -1.429 2.631 4.011 -15.669 -10.829 -5.549 -1.489 -0.109 -16.829 -11.989 -7.869 -2.649 -1.269 -20.889 -16.049 -11.929 -10.769 -5.329 -22.269 -17.429 -13.309 -12.149 -8.0894.840 8.960 10.120 14.180 15.560 -4.840 4.120 5.280 9.340 10.720 -8.960 -4.120 1.160 5.220 6.600 -10.120 -5.280 -1.160 4.060 5.440 -14.180 -9.340 -5.220 -4.060 1.380 -15.560 -10.720 -6.600 -5.440 -1.38011.549 15.669 16.829 20.889 22.269 1.869 10.829 11.989 16.049 17.429 -2.251 2.589 7.869 11.929 13.309 -3.411 1.429 5.549 10.769 12.149 -7.471 -2.631 1.489 2.649 8.089 -8.851 -4.011 0.109 1.269 5.329*** *** *** ****** *** ********* ***例二 区间实验设计 (又是重复观察设计) 这个实验设计中 变量 BLOCK 代表每一个观察体 的变量 而 B 代表重复观察的变量 程 序DATA SPLIT; INPUT BLOCK 1 A 2 B 3 RESPONSE; CARDS; 142 40.0 141 39.5 112 37.9 111 35.4 121 36.7 *** ***也是一个区间A 代表不重复 24第五部分变异数分析122 38.2 132 36.4 131 34.8 221 42.7 222 41.6212 40.3211 241 242 231 23241.6 44.5 47.6 43.6 42.8 ; PROC ANOVA;CLASS BLOCK A B;MODEL RESPONSE=BLOCK A BLOCK*A B A*B; TEST H=A E=BLOCK*A; TITLE 'SPLIT PLOT DESIGN';RUN;结 果 虽然整个分析的结果达到 0.05 的显著程度 但这个显著的差异几乎全是 BLOCK 的 差异造成的 (P&0.0014) 自变量 A 重复观察变量 B 或两者间的交互作用则未达 0.05 的显著程度报表 26.2 区间实验设计 (又是重复观察设计)SPLIT PLOT DESIGNAnalysis of Variance Procedure Class Level Information Class BLOCK A B Levels 2 4 2Values 1 2 1 2 3 4 1 2Mean SquareNumber of observations in data set = 16 Analysis of Variance Procedure Dependent Variable: RESPONSE Source Model Error Corrected Total DF 11 4 15 Sum of Squares 182...4500000 F Value 7.85Pr & F 0.030616..1075000R-Square 0.955736 Dependent Variable: RESPONSE Source BLOCK DF 1C.V. 3.609007Root MSE 1.451723RESPONSE Mean 40.2250000Anova SS 131.1025000Mean Square 131.1025000F Value 62.21Pr & F 0.0014 第 26 章平均实验设计的变异数分析统计程序 PROC ANOVA25A 3 40...36 0.0530 BLOCK*A 3 6...10 0.9 B 1 2...07 0.8612 A*B 3 1...25 Tests of Hypotheses using the Anova MS for BLOCK*A as an error term Source A DF 3 Anova SS 40. Mean Square 13. F Value 5.80 Pr & F 0.0914例三 拉丁方格的重复实验设计本文件 (BEETS) 是由 Smith W. G. (1951) 发表的 文件的数据来自六种甜菜 (VARIETY) 这六种甜菜构成拉丁方格设计的行 (COL) 与列 (ROW) 另外 数据由两 次收成(HARVEST) 累积而成 故形成一个拉丁方格的重复实验设计 程 序TITLE 'Latin-Square Design'; DATA BEETS; END;DO HARVEST=1 TO 2; DO ROW=1 TO 6;END;DO COL=1 TO 6;INPUT VARIETY Y @;OUTPUT;END;CARDS;3 19.1 6 18.3 5 19.6 1 18.6 2 18.2 4 18.5 6 18.1 2 19.5 4 17.6 3 18.7 1 18.7 5 19.9 1 18.1 5 20.2 6 18.5 4 20.1 3 18.6 2 19.2 2 19.1 3 18.8 1 18.7 5 20.2 4 18.6 6 18.5 4 17.5 1 18.1 2 18.7 6 18.2 5 20.4 3 18.55 17.7 4 17.8 3 17.4 2 17.0 6 17.6 1 17.6 3 16.2 6 17.0 5 18.1 1 16.6 2 17.7 4 16.3 6 16.0 2 15.3 4 16.0 3 17.1 1 16.5 5 17.6 1 16.5 5 18.1 6 16.7 4 16.2 3 16.7 2 17.3 2 17.5 3 16.0 1 16.4 5 18.0 4 16.6 6 16.1 4 15.7 1 16.1 2 16.7 6 16.3 5 17.8 3 16.2 5 18.3 4 16.6 3 16.4 2 17.6 6 17.1 1 16.5 ; PROC ANOVA; CLASS COL ROW VARIETY HARVEST; MODEL Y=ROW COL VARIETY ROW*COL*VARIETY HARVEST HARVEST*ROW HARVEST*VARIETY; TEST H=ROW COL VARIETY E=ROW*COL*VARIETY; TEST H=HARVEST E=HARVEST*ROW; RUN;
26第五部分变异数分析结 果 比较令人关心的甜菜种类 以及前后两季的收获量在本实验设计内分别用两个不同 的分母来检定 结果显示 甜菜的种类与产量有关 (P=0.001) 而且收成的季节也与产量 有关 (P=0.0015)报表 26.3拉丁方格的重复实验设计Latin-Square Design Dependent Variable: Y Source Model Error Corrected Total Dependent Variable: Y Source ROW COL VARIETY COL*ROW*VARIETY HARVEST ROW*HARVEST VARIETY*HARVESTAnalysis of Variance Procedure Class Level Information Class COL ROW VARIETY HARVEST Levels 6 6 6 2 Values 1 2 3 4 5 6 1 2 3 4 5 6 1 2 3 4 5 6 1 2Number of observations in data set = 72R-Square 0.929971DF 46 25 71 DF 5 5 5 20 1 5 5Sum of Squares 98...Analysis of Variance ProcedureMean Square 2..F Value 7.22Pr & F 0.0001C.V.Root MSE 0.545838Y Mean 17.69027783.085524Anova SSMean Square 0.......4.......F Value 2.90 1.06 13.84 0.55 203.68 5.18 0.50Pr & F 0.5 0.4 0.1 0.7729Analysis of Variance Procedure Dependent Variable: Y Tests of Hypotheses using the Anova MS for COL*ROW*VARIETY as an error term Source ROW COL VARIETY DF 5 5 5 Anova SS 4... Mean Square 0... F Value 5.31 1.93 25.34Pr & F 0.3 0.0001Tests of Hypotheses using the Anova MS for ROW*HARVEST as an error term Source HARVEST DF 1 Anova SS 60. Mean Square 60. F Value 39.32 Pr & F 0.0015 第 27 章变异数成份的分解 VARCOMP统计程序 PROC27.1PROC VARCOMP 旨在估计一般线性模型里变异数成分的值 这个估计的结果有助 读者在随机效果 (Random Effects) 的实验设计里 执行正确的 F 检定 随机效果的实验设计所谓随机效果的设计 系指一个自变量在母群中的组数远超过样本中读者考虑的组 数 也就是说 在实际的样本中 读者只取了母群中所有可能之实验组的随机样本而已 比方说 年龄是一个自变量 若在实验中 我们取了老 中 少三个组别 则这就是一个 随机效果的实验设计 因为年龄是一个连续变量 而读者强制地把这个变量分成有限的三 个组别 反过来说 如果性别是一个自变量 而且实验中我们分别取了男 女两组 则这 就不是一个随机的效果 因为母群中性别变量的组数 (两组) 等于样本实验中的组数 (两 组) 所以 男女的差异应属于固定效果 (Fixed Effects) PROC VARCOMP 程序概述基本假设VARCOMP 程序的基本假设是其 MODEL 指令中所列举的各项效果 (如 主效果 交互效果 或镶嵌效果 ) 都是随机的效果 然而读者若想同时考虑固定效果与随机效果 (如 实验设计中所含的两个自变量分别是性别与年龄) 则必须在 MODEL 指令上先将 这些固定效果列举出来 有关这种混合效果 (Mixed Effects) 的实验设计写法 请见 MODEL 指令中的选项 FIXED=n四种估计变异数成份的方法在 VARCOMP 程序中 读者可选用下列四种方法来估计变异数的成分 (1) 一型估计法 一型估计法利用第一型离差平方和的观念 (见第 32 章的说明) 首先计算出各效 果的平均方 (MS) 然后进行 F 检定 其所对应的选项是 METHOD=TYPE1 (2) MIVQUE0 法 MIVQUE0 法由三位统计学家 Hartley Rao 以及 LaMotte 1978) 共同提出 这个方法所估计出来的变异数不受线性模型中固定效果的影响 是所谓的 局部 最佳二次不偏估计值 (Locally Best Quadratic Unbiased Estimates) 本法与上述一 唯一不同的是当使用 MIVQUE0 法时 随机效果的变异数成分 型估计法类似 只针对固定效果做调整 如此 随机效果的变异数成分和固定效果的变异数成分
28第五部分变异数分析是彼此独立的 所以 MIVQUE0 法的计算过程非常节省时间 是 VARCOMP 程 序的内设值 其所对应的选项是 METHOD=MIVQUE0 (3) 最大可能率方法 (The Maximum Likelihood Ratio Method) 此 法 所 导 出 的 变 异 数 估 计 值 称 为 最 大 可 能 率 估 计 值 (Maximum Likelihood Estimates) 这个方法的理论基础由 Hemmerle 与 Hartley (1973) 建立 估计的过 程是循环式的 最原始的估计值由 MIVQUE0 法提供 然后估计值不断的被改善 修正直到其目标函数值 (即对数可能率的值) 稳定下来为止 其所对应的选项是 METHOD=ML (4) 局限性最大可能率法 (The Restricted Maximum Likelihood Ratio Method) 此法与上述最大可能率法十分类似 其理论基础同是最大可能率方法 两法相异 之处在于局限性最大可能率法首先将线性模型中的随机效果与固定效果分开 然 后进行循环式的估计直到随机效果所对应的目标函数值稳定下来为止 然而最大 可能率法并不区分模型中的随机及固定效果 局限性最大可能率法所对应的选项 是 METHOD=REML 27.2如何撰写 PROC VARCOMP 程序PROC VARCOMP 含四道指令 它们的格式如下PROC VARCOMP 选项串 CLASS MODEL BY自变量名称串 变量名称串因变量名称串=效果名称串 /选项指令 #1 PROC VARCOMP 选项串有四个选项 (见下页) (1) METHOD=TYPE1 或 METHOD=MIVQUE0 或 METHOD=ML 或 METHOD=REML 这四种方法已在前面 (见本章 27.1 节) 介绍过 因此不再赘述 若省略此选项则 内设值是 METHOD=MIVQUE0 因其计算非常省时 (2) MAXITER=正整数 界定最大可能率法 (ML 法) 或局限性最大可能率法 (REML 法) 中循环的最高 次数 内设值等于 50 (3) EPSILON= 小的正实数 界定 ML 法或 REML 法里目标函数稳定度的标准 内设值是 10 的 -8 次方 如果前后两次循环所产生的函数值之差小于此数 则我们说目标函数已达稳定
第 27 章变异数成分的分解统计程序 PROC VARCOMP29(4) DATA=输入文件名称 指明到底对那一个文件执行分析 若省略此选项 之前最后形成的 SAS 文件 并对它执行分析 指令 #2 CLASS 自变量名称串则 SAS 会自动找出在此程序此指令列举所有自变量的名称 自变量可以是数值变量 (如 男=1 女=2) 也可以 是文字变量 (如 男=MALE 女 =FEMALE) 若是文字变量 则其变量长度值必须在十 六个字母之内 若是数值变量 其值不受 16 个字母长度的限制 而且不一定要是整数 指令 #3因变量的数目可以是一个也可以是一个以上 当 MODEL 指令含一个以上的因变量 时 VARCOMP 程序针对每一个因变量 逐一执行分析 效果名称串可包含主效果 交互效果 以及镶嵌效果 有关这些效果的定义 读者 可参阅第 26 章 ANOVA 程序的介绍 删除号 (/) 后的选项有一个 (1) FIXED=n (大于 0 的正整数 如 3) 这个选项规定 MODEL 指令等号右边的前几 (3) 个效果是固定效果 其后的效 果则都是随机效果 MODEL 因变量名称串 效果名称串 选项指令 #4BY 变量名称串VARCOMP 程序依据此指令所列举的变量将文件分成几个小的文件 然后对每一个 小的文件分别执行分析 当读者选用此指令时 文件内的数据必须先按照 BY 变量串的 值作由小到大的重新排列 这个步骤可藉 PROC SORT 达成27.3范例例一 四种估计变异数成份的方法本文件 (A) 的数据由 Hemmerle 与 Hartley (1973) 所提供 自变量有二 即 A 与 B 因变量是 Y 三个效果中 只有 A 的主效果是固定的 B 的主效果及 A*B 的交互效果 都是随机的 数据经 PROC VARCOMP 分析四次 每一次以一个不同的方法来分解变异 数的成分 程 序DATA A; INPUT A CARDS; 1 1 237 1 1 2 1 178 2 1 3 1 183 3 2 ; B Y @@; 254 1 1 246 1 2 178 1 2 179 2 1 208 187 2 2 146 2 2 145 2 2 141 3 1 186 142 3 2 125 3 2 136
30第五部分变异数分析 PROC VARCOMP METHOD=TYPE1; CLASS A B; MODEL Y=A|B / FIXED=1; PROC VARCOMP METHOD=MIVQUEO; CLASS A B; MODEL Y=A|B / FIXED=1; PROC VARCOMP METHOD=ML; CLASS A B; MODEL Y=A|B / FIXED=1; PROC VARCOMP METHOD=REML; CLASS A B; MODEL Y=A|B / FIXED=1; RUN;结 果 第一种分析方法显示 A 的固定效果与 B 的随机效果对 Y 变异数的解释达显著的 程度 A*B 的效果则不显著 第二 三 与四法分析的过程不再检视 A 效果的显著性 只对 B 及 A*B 两个随 机效果作分析 三种分析结果均显示 B 效果是显著的 然而 A*B 的交互效果则未达显 著程度 报表 27.13 2Variance Components Estimation Procedure Class Level Information Class A B Levels Values 1 2 3 1 2四种估计变异数成份的方法Number of observations in data set = 16 Variance Components Estimation Procedure Dependent Variable: Y Source A B A*B Error DF 2 1 2 10 Type I SS 00 03 299.. Type I MS 0 03 149.. Expected Mean SquareVar(Error) + 2.725 Var(A*B) + 0.1 Var(B) + Q(A) Var(Error) + 2.6308 Var(A*B) + 7.8 Var(B) Var(Error) + 2.5846 Var(A*B) Var(Error)Corrected Total 15 00 Variance Component Estimate 第 27 章Var(B) Var(A*B) Var(Error) 0 27..变异数成分的分解统计程序 PROC VARCOMP31Source B A*B ErrorMIVQUE(0) Variance Component Estimation Procedure SSQ Matrix A*B 20. Error 7... Estimate Y Y
 B 60... Var(B)Variance Component20..Var(A*B) Var(Error)7 -35..Maximum Likelihood Variance Components Estimation Procedure Dependent Variable: Y Iteration 0 1 2 3 Objective 78....Var(B) 1 732...Var(A*B) 00 0 00Var(Error)74.77.77.77. Convergence criteria met. Asymptotic Covariance Matrix of Estimates Var(B) Var(B) Var(A*B) Var(Error) 93 0 -107.3390452 Var(A*B) 0 0 0 Var(Error) -107..Restricted Maximum Likelihood Variance Components Estimation Procedure Dependent Variable: Y 32第五部分变异数分析Iteration 0 1 2Objective 63.....Var(B) 1 4 7 1 4Var(A*B) 0 32....Var(Error) 91.....3 4 Var(B)Convergence criteria met. Asymptotic Covariance Matrix of Estimates Var(B) Var(A*B) 1.294 2.852 Var(Error) -273.397 -502.852 Var(A*B)Var(Error)1.294-273.397
第 28 章混合式模型的变异数分析 MIXED统计程序 PROC28.1MIXED 程序旨在执行混合式模型的线性分析 混合式模型指模型中含固定效果 (Fixed Effect) 以及随机效果 (Random Effect) 是一般线性模型的延续 因此功能更强 更广泛 最适用于 MIXED 程序的实验设计含 镶嵌式的实验设计 重复观察的实验设计 随机效果的实验设计等 此外 MIXED 程序有如下的功能 (甲) 接纳各式的共变异数矩阵的结构 如双对称 (Compound Symmetry) 简易随机 效果 (Simple Random Effects) 不规则形的 (Unstructured) 时间序列下的自回 归型 [AR(1)] 杜氏型 (Taeplitz) 以及空间型 (Spatial) (乙) 自动设定 t 检定与 F 检定的分母 尤其是针对固定效果 随机效果 以及混 合效果的可估计之线性组合函数 (丙) 可适当地处理非平衡型的实验设计 (丁) 可检验受试者或分组效果是否存在 (戊) 利用牛顿 罗福森计算系统 (Newton-Raphson algorithm) 执行最大可能率 (ML) 或局限性最大可能率 (REML) 的估计参数的方法 (己) 与 ANOVA 程序或 GLM 程序 (见第 31 章) 的指令大同小异 PROC MIXED 程序概述28.2名 词 解 释何谓混合式的线性模型? 任何数学公式的模型都旨在解释一组数据内可能存在的函数关系 一般的线性模型 (用在 ANOVA 与 GLM 程序内) 是最常见的模型 其形式如下 y=X +e 是待估计的参数向量 X 是模型内 在这个表示式里 y 代表一组单变量的数据 所对应的母群 已知的独立变量的值 e 代表未知的随机取样的误差 一般线性模型内 估计的效果值来预测因 参数是一个固定的效果 因此 线性模型的最终目的就是利用 变量 y 的平均数 在估计与预测的过程中 随机误差 e 的变异数是假设为一个定值 而 且 e 值间彼此独立 若将上述的线性模型推广如下式 y=X +Z +e 34第五部分变异数分析则这个模型功能将更广泛 读者不难猜到 这个推广的模型就是所谓的 混合式的线性模 和 e 的定义与前述的一般线性模 型 (以下简称混合模型) 根据此混合模型 y X 是个随机效果的 型完全相同 新添的 Z 代表另一组的独立变量 其对应的参数向量 向量 除此之外 e 值间的独立关系也未必成立 混合模型的优点在于提供 y 值的变异数以及 y 值的平均数 混合模型涵盖一般线 与 e 彼此线性独立 其平均数都等 性模型 因为后者是前者的特例 如果我们假设 于零 变异数矩阵各是 G 与 R 则混合模型可简化成下式 V=ZGZ'+R 由于 R= 2×I (单位矩阵) Z=0 (零矩阵) 因此上述简化数的混合模型就是一般的线 性模型 根据上述简化的混合模型 读者可事先界定 G 与 R 矩阵的形式 从而导出 y 值的 变异数 MIXED 程序现有的指令可界定下面几种的 G 与 R 的矩阵结构 简易型 (Simple) 适用于随机效果 双对称型 (Compound Symmetric) 适用于重复观察的实验设计 时间序列型 (Time-series) 适用于自回归型 (Autoregressive) 的数据 空间型 (Spatial) 或作规化型 (Kriging) 的数据 不规则型 (Unstructured) 这几种型式的排列组合 由上面的简介 读者不难明白 MIXED 程序是第五部分所介绍的变异数分析的程序 中功能最强 用途最广的程序 下面我们举一例示范这个程序的基本功能 28.3MIXED 程序基本功能的示范在这一节里 我们将示范 MIXED 程序如何轻而易举地解决镶嵌式实验中所得的数 据 首先 让我们假设这个实验设计含 A 与 B 两个独立变量 A 变量下的组别以随机 方式分配至不同的畦区 B 变量下的组别也以随机的方式分配至 A 畦区内的次畦区下 各畦区的不同在于灌溉水份的多少 次畦区的不同则在于一种经济作物 (如稻米) 的不同 品种 一般而言 由于畦区的面积远远大于次畦区 而且所牵涉的变因太多 因此统计分 析的结果较能解释次畦区间产量的不同 至于畦区间产量的不同只能自分析的数据中得到 初步的了解 在分析的过程中 A 的主效果由 F 检定 (F=A/A*BLOCK) 得出 B 的主效果由 F=B/B*BLOCK 得出 A 与 B 的交互作用则由 F=(A*B)/(A*B*BLOCK) 得出 每一个 F 检定的分母都不一样 因此 若以 ANOVA 或第 31 章的 GLM 程序来执行这三个 F 检 定 则我们必须在程序中加上几个 TEST 指令 否则这两个程序自动选择残差的平均方 值为 F 检定的分母 这个问题在 MIXED 程序中只要藉一个 RANDOM 指令就解决了 请看下面的程序示范 [数据由 Stroup (1989) 提供 程序中 A B 的定义如上 BLOCK 代 表每一株稻米作物]
第 28 章 DATA SPLIT;混合式模型的变异数分析统计程序 PROC MIXED35INPUT BLOCK A B Y @@; CARDS; 1 1 1 56 1 1 2 41 1 2 1 50 1 2 2 361 3 1 39 1 3 2 35 2 1 1 30 2 1 2 25 ;2 2 1 36 2 2 2 28 2 3 1 33 2 3 2 30 3 1 1 32 3 1 2 24 3 2 1 31 3 2 2 27 3 3 1 15 3 3 2 19 4 1 1 30 4 1 2 25 4 2 1 35 4 2 2 30 4 3 1 17 4 3 2 18PROC MIXED;CLASS A B BLOCK; MODEL Y=A B A*B;RANDOM BLOCK A*BLOCK; RUN;上述的程序列举 A B BLOCK 为分类变量 (见 CLASS 指令) 线性模型中的效 果均为固定效果 (见 MODEL 指令中等号右式的三项 A B A*B) 随机效果有两项 BLOCK 与 A*BLOCK (见 RANDOM 指令) 如此设定的模型若以简化的混合模型来理解 则 G 矩阵是一个对角线矩阵 对角线 上的值就是 BLOCK 与 A*BLOCK 对应的变异数 R 矩阵也是一个对角线矩阵 其值 代表残差的变异数 上述 SAS 程序执行后得到如下的结果 The SAS System The MIXED Procedure Class Level Information Class A B BLOCK Levels 3 2 4 Values 1 2 3 1 2 1 2 3 4报表的第一页是一个 &Class Level Information& 表 读者可利用此表所列举的变量名 称与其组别个数来验系数据的输入是否正确! 接下来报表印出局限性最大可能率 (REML) 的推算过程 36第五部分变异数分析 The MIXED Procedure REML Estimation Iteration History Iteration Evaluations 0 1 Objective Criterion1 106. 86..Convergence criteria met.上 面 的 报 表显 示 只 经过 一 次 的循 环 牛 顿 - 罗 福 森计 算 系 统就 达 收 敛指 标 ( 由 Criterion=0 表示) 每一次的循环中 牛顿-罗福森计算系统取目标函数的极小值 目标函 数等于 (-2) 乘以对数可能比再加上一个常数 整个函数值打印在 &Objective& 的标题下 循环推算的结果如下所示 Cov Parm BLOCK A*BLOCK ResidualThe MIXED Procedure6.1..Covariance Parameter Estimates (REML) Ratio Estimate 62. Std Error 56... Z 1.10 1.30 2.12 Pr & |Z| 0.1 0.0339变量 BLOCK 的变异数值估计为 62.40 A*BLOCK 值是 15.38 残差是 9.36 这 些值均列在标题 &Estimate& 之下 在 Estimate 行之前有一行 标示为 &Ratio& 这是 各估计值除以残差的结果 因此 62.40/9.36=6.67 (对应 BLOCK) 15.38/9.36=1.64 (对应 A*BLOCK) 最后的常数 1 是显而易见的 故不赘述 &Estimate& 之后的一行代表估计值的标准误差 (Std Error) 再后一行是标准化后的估 计值 以 Z 表示 每一个 Z 值都是估计值除以标准误差之后的比率 所以 BLOCK 的 Z 值等于 62.40/56.54=1.10 其统计显著度大约是 0.2698 此打印在最后一行内 其标题 为 &Pr& Z & 依此类推 估计值配合着混合模型对因变量 Y 的解释能力可由接下来的报表看出15..The MIXED ProcedureValue 9.6Model Fitting Information for Y Description Observations Variance Estimate Standard Deviation Estimate REML Log Likelihood Akaike's Information Criterion Schwartz's Bayesian Criterion -2 REML Log Likelihood Null Model LRT Chi-Square Null Model LRT DF Null Model LRT P-Value 24.0000-59.9 -64.8 20.0 0.0000 第 28 章混合式模型的变异数分析统计程序 PROC MIXED37Observation 等于样本的大小 (24) Variance Estimate 是前面提到的残差之变异数 (9.36) Standard Deviation Estimate 是残差的标准差 ( 9.36 =3.06) REML Log Likelihood (-59.88) Akaike's Information Criterion (赤池氏资讯量指标=-62.88) Schwartz's Bayesian Criterion (萧氏指标=-64.2165) 等三个数字是用来比较不等模型的优劣 根据这三个指标 的定义 愈大的值 (含负值在内) 表示其对应的模型愈好 由于本例只考虑了一个混合模 型 故无须进一步讨论这些数值的优劣 上表中最后三个值都与可能比测试 (Likelihood Ratio Test) 有关 在此 可能比测试 是用来比较本例中考虑的混合模型与虚无模型的相对功能 所谓的虚无模型就是一般的线 性模型 其所涵盖的效果都是固定效果 因此 其统计显著度都以残差的平方大小为 F 检 定的分母 最后让我们检视这个混合模型对 A B 主效果以及 A*B 之间交互效果的统 计显著的程度 Source A B A*BThe SAS System The MIXED Procedure Tests of Fixed Effects NDF DDF Type III F Pr & F 2 6 4.07 0. 19.39 0. 4.02 0.0566根据分析结果 B 的主效果特别显明 换言之 稻米的品种对产量的多少影响最大 其次是品种与灌溉之间的交互作用 (显著度 =.0566) 最后才是灌溉量的主效果 ( 显著度 =.0764) 若读者事先设定的第一类型错误的概率值定在 10% 则这三个效果都可算是达 到统计显著的程度了 本节示范的混合模型若在 ANOVA 程序或 GLM 程序下执行 则需加 TEST 的指 令而且 MODEL 指令下的效果也加多 请看下面修正过的程序PROC GLM DATA=SPLIT; CLASS A B BLOCK; MODEL Y=A|B BLOCK A*BLOCK; TEST H=A E=A*BLOCK; RUN; 经 SAS 6.09 执行后 得如下的结果The SAS System General Linear Models Procedure Dependent Variable: Y Sum of Source Model Error Corrected Total DF 14 9 23 Squares
84.1.833333 Mean Square 147..361111 F Value 15.78 Pr & F 0.0001 38第五部分变异数分析R-Square 0.960847 C.V. 9.896259 Type I SS 326...3..750000 Type III SS 326...3..750000 Root MSE 3.059593 Mean Square 163.....125000 Mean Square 163.....125000 Mean Square 163.2916667 F Value 17.44 19.39 4.02 44.28 4.29 F Value 17.44 19.39 4.02 44.28 4.29 F Value 4.07 Y Mean 30.91667 Pr & F 0.7 0.1 0.0256 Pr & F 0.7 0.1 0.0256 Pr & F 0.0764Source A BDF 2 1 2 3 6 DF 2 1 2 3 6A*B BLOCK A*BLOCK Source A B A*B BLOCK A*BLOCK Source ATests of Hypotheses using the Type III MS for A*BLOCK as an error term DF 228.4如何撰写 PROC MIXED 程序Type III SS 326.5833333PROC MIXED 含十二道指令 其中只有 PROC MIXED 和 MODEL 是必需的 不 可省略 其余十道指令则可有可无 然而当实验设计含一个以上的自变量时 读者必须用 CLASS 指令标明 以下列举 PROC MIXED 的十二道指令不可省略 必须在 MODEL 指令前 不可省略 CLASS 自变量名称串 MODEL 因变量 = 固定效果串 选项串 PROC MIXED 选项串 必须在 MODEL 指令后 必须在 RANDOM 指令前 出现在程序任何 一 处 RUN 令前 指RANDOM 随机效果串令前 选项串 REPEATED 重复观察效果串 PARMS 参数的初值 选项串 CONTRAST '比较式的名字'固定效果的系数 ESTIMATE '估计值的名字'固定效果的系数 LSMEANS 固定效果串 选项串 MAKE '表格名称'OUT = 输出资料文件名称 BY 变量名称串 ID 变量名称串 选项串选项串 选项串随机效果的系数 随机效果的系数 第 28 章混合式模型的变异数分析统计程序 PROC MIXED39下面是除 PROC MIXED 以外其余十一道指令的功能简介PROC MIXED 指令 功能简介 CLASS MODEL RANDOM 标明自变量 界定统计模型 宣告某些效果是随机效果 界定参数的初值或范围 设定统计假设的推定空间 设定上述推定空间中的一个平面 计算根据通用最小误差平方法所求得的平均数 界定一个输出资料文件 内含分析结果与公式 分别对其执行统计分析 并且界定其变异数矩阵 界定混合模型中 R 矩阵的结构REPEATAED CONTRAST LSMEANSPARMS ESTMATE MAKE BYID以下针对这些指令作详尽的介绍 指令 #1 PROC MIXED 选项串 将资料文件分成几个部分 观察体的识别编号在此指令后 有下列十六个选项 (1) DATA=输入资料文件名称 指明对那一个 SAS 资料文件执行分析 若省略此选项 则 SAS 会自动找出在 此程序前最后形成 SAS 资料文件 并对它执行分析 (2) ORDER=FREQ 或 ORDER=DATA 或 ORDER=INTERNAL 或 ORDER=FORMATTED (内设值) 界定自变量下组别的次序 这个选项和 CONTRAST 及 ESTIMATE 指令是息息 相关的 当 ORDER=FREQ 时 观察个数最多的那一组就是第一组 次多个数的组是第 二组 以下类推 适当 ORDER=DATA 时 组别是按照输入资料文件中各组第一次出现的次序而 决定的 适当 ORDER=INTERNAL 时 组别按其数字代号 (如 1,2,3 等) 由小到大排列 或按各组名称的第一个字母顺序排列 (如 HSINCHU 在 TAIPEI 之前) 适当 ORDER=FORMATTED 时 则组别的顺序以外部的格式 (External Format) 而决定 这也是本选项的内设值 (3) METHOD=REML (内设值) 或 METHOD=ML 或 METHOD=MIVQUE0 界定一种统计方法可用来估计共变异数的参数 当 METHOD=REML 时 MIXED
40第五部分变异数分析程序选用局限性最大可能率法 这也是本选项的内设值 当 METHOD=ML 时 MIXED 程序选用最大可能率法 最后一种选择 MIVQUE0 代表玛氏最小变异数 二次不偏估计法 (MinimumVariance Quadratic Unbiased Estimation) (4) MAXITER=正整数 (如 30) 此选项界定上述估计法的最高循环次数 内设值等于 50 次 (5) ABSOLUTE 要求任何一种统计估计法的收敛指标是绝对的 若不界定这个选项 则收敛指标 的值 是相 对的 下 面介 绍 MIXED 程序所 使 用 的三 个 收 敛指 标 CONVF CONVG CONVH (6) CONVF 或 CONVF=正实数 (如 0.00001) 这个收敛指标取前后两次循环的目标函数值 分别以 fk fk-1 表之 求得其差额 然后除以 fk 的绝对值以标准化 若这个收敛指标小于内设值或读者界定的正实 数 (如 0.00001) 则谓循环可收敛 上述的概念若以数学式表示 则 CONVF 的 意义如下 f k ? f k ?1 fk≤ 正式数 (内设值为10的 - 8次方 )(7) CONVG 或 CONVG=正实数 这个收敛指标先取目标函数的第一次微分 (g 函数) 计算 g 函数的第 j 个值 取 其最大值 最后 再除以原目标函数值 (fk) 以标准化 这个定义若以数学式表示 则如下式CONVG = MAX i g jk fk k = 循环次数若 CONVG 小于或等于 10 的 -8 次方 ( 内设值) 或读者界定的正实数 则谓 循环可收敛 (8) CONVH 或 CONVH=正实数 这个收敛指标利用目标函数的第一 (gk) 与第二微分 (Hk) 函数 再除以原函数值 以标准化 其数学表示式如下 CONVH =g k ' H -1 KgK fkk = 循环次数若 CONVH 小于或等于 10 的 -8 次方 或是读者自定的正实数 则谓循环可收 敛 CONVH 指标是 MIXED 程序的内设值 换言之 若程序中不界定 CONVF CONVG 或 ABSOLUTE 等关键字 则 MIXED 程序自动定 CONVH 为收敛指 标 第 28 章混合式模型的变异数分析统计程序 PROC MIXED41然当 Hk 是一个非满秩矩阵时 公式来计算收敛指标值H-1 就不存在因此CONVH 改用下面的修正g k 'g k ≤ 10的 - 8次方或读者自定的正实数 fk(9) CL 要求 MIXED 程序计算 参数的 95% 的信赖 区间 读者可利用 下面的选 项 ALPHA 来要求其它准确度的信赖区间 (10) ALPHA=正实数 这个值相当于第一类型错误的概率值 因此 (1-ALPHA) 代表上述 CL 信赖区 间的准确度 ALPHA 的值必须是小数 如 0.10 其内设值等于 0.05 (11) NOBOUND 要求 MIXED 程序对参数的估计值不受下限的限制 由于估计的参数本身代表变 异数 因此内设的下限是 0 (12) ASYCOV 要求打印出参数估计值的变异数矩阵 此矩阵是一个不对称的正方矩阵 等于 2H-1 H 是目标函数的第二微分矩阵 -2H-1 也就是费契尔资讯矩阵的反矩阵 (The Inverse Fisher Information Matrix) (13) MMEQ 要求报表上打印出混合模型的数学公式 (14) MMEQSOL 要求报表上打印出上述数学模型的解 以及系数矩阵的反矩阵 (15) NOCLPRINT 要求抑止自变量组别的打印 (16) NOITPRINT 要求抑止循环过程的打印 指令 #2CLASS 自变量名称串这道指令也可以写成 CLASSES 自变量名称串 此指令标明资料文件中到底那些是 统计模型中的自变量 这些变量可以是数值的或文字的 若是文字变量 则其长度不可超 过十六个字母 此指令必须置于 MODEL 指令之前 指令 #3 MODEL 因变量 固定效果串 选项串 删除号 (/) 之前的部分 (因变量=固定效果串) 要求你首先决定到底有哪些固定的效 果适用于解释数据 然后根据 26 章 (ANOVA) 第 26.3 节的原则将它写出 请读者注意 这里的效果必须是固定的效果 而且因变量只有一个 然而 ANOVA 及 GLM 程序可接受两个或两个以上的因变量 删除号 (/) 后的选项如下 (1) NOINT 42第五部分变异数分析要求 MIXED 程序将截距 (常数) 的参数排除在模型之外 否则 MODEL 指令自 动把截距考虑进去 (2) CL 要求 MIXED 程序计算每一个固定效果 95% 的信赖区间 这个信赖区间是根据 t 分配而来的 读者可利用下面的选项 ALPHA= 来要求其它准确度的信赖区间 (3) ALPHA=正实数 这个值相当于第一类型错误的概率值 因此 (1-ALPHA) 代表上述 CL 信赖区 间的准确度 ALPHA 的值必须是小数 如 0.10 其内设值等于 0.05 (4) SOLUTION (或 S) 要求 MIXED 程序印出固定效果的解 亦即参数的估计值 (5) E3 要求 MIXED 程序列出每一固定效果的第参型可估计函数值 (6) CHISQ 要求 MIXED 程序针对上述的函数值执行卡平方检定 卡平方检定是除了内设的 F 检定以外另一种检验固定效果大小的统计方法 (7) CONTAIN 这个选项只适用于极繁复的随机效果之实验设计 换言之 前面 (第 28.2 节) 所 提的 Z 矩阵必须含 200 以上的直行 在这个情况下 CONTAIN 选项利用包容 法 (Containment Method) 计算 F 分母自由度的近似值 否则 残差的自由度自 动成为 F 分母的自由度 此选项可加速 MIXED 程序的执行 若 Z 矩阵的直行数少于 200 行 则 MIXED 程序自动执行包容法以便得到更精 确的近似值 (8) NOCONTAIN 要求 MIXED 程序一律以残差的自由度当作 F 检定之分母的自由度 由上面 CONTAIN 选项推论 NOCONTAIN 选项只影响 Z 矩阵的直行数小于 200 的数据 (9) SINGULAR=极小的实数 设定循环估计过程中参数估计的敏感度 内设值等于 10 的 -8 次方 (10) ZETA=极小的正实数 此选项控制第参型可估计函数值之可估计性检定的敏感度 内设值是 10 的 -8 次 方 若实际值小于此内设值或读者自定的下限 则 MIXED 程序自动以 0 取代之 (11) XPVIX 要求报表上打印出 (Xy)'V-1(Xy) 矩阵 (12) XPVIXI 要求报表上打印出 (X'V-1X)-1 矩阵与其相对应之 y 的边际 (Borders) (13) PREDICTED (或 P) 要求报表上打印出一系列有关观察体预测值的计算结果 包括观察体编号 (obs) 识别代号 (由 ID 指令界定) 原数据值 预测值 预测值的变异数 预测值的标 准误差 95%信赖区间的上下限 以及预测误差 表的横列则由各观察体代表 在此 观察体必须在各独立变量上有数据才可被纳入此表中 
第 28 章混合式模型的变异数分析统计程序 PROC MIXED43指令 #4RANDOM 随机效果串 选项串RANDOM 指令用来注明实验设计中的随机效果 随机效果可以是类别的或是连续 的 也可以是截距 根据第 28.2 节的模型阐释 因变量 y 的变异数 等于 ZGZ'+R 在此 我们假 与误差变量 e 的变异矩阵 Z 矩阵代表已知随机效果 设 G 与 R 分别代表随机变量 与 e 的关系是线性独立的 其平均数都等于零 的高低 (量) 此外 下面是删除号 (/) 后读者可界定的选项 (1) TYPE=SIM (内设值) 或 TYPE=CS 或 TYPE=UN 或 TYPE=UN(q) 或 TYPE=AR(1) 或 TYPE=TOEP 或 TYPE=TOEP(q) 或 TYPE=SP (矩阵的结构) (坐标值) 这个选项界定上述 G 共变异数矩阵的结构 表 28.1 简单地说明各矩阵结构的形 式与待估计之参数的个数 表 28.1 G 矩阵的结构形式TYPE= SIM (内设值) CS UN UN(q) AR(1) TOEP TOEP(q) 结构形式 简单型 双对称型 不规则型 局限型 自回归型 杜氏型(Toeplitz) 局 限 性 杜 氏 型 (Banded Toeplitz)待估计之参数值或个数 =1 =1 或 2 n(n+1)/2 个 (2n-q+1)q/2 =1 或 2 n 个 q 个代号与待估计之参数个数矩阵的表示式 2 ij= 1(i=j) 2 2 ij= 1 + 1(i=j) = ij ji i-j &q) ij= ji1( 2 i-j ij= ij= i-j +1 i-j ij= i-j +11( &q)上表最后一行中 1(i=j) 表示当 i=j 时 其值是 1 当 i j 时 其值是 0 同理 1( i-j &q) 表示当 i-j 小于 q 时 其值是 1 当 i-j q 时 其值是 0 2 上表中第三行 参数之个数 里 参数值等于 1 或 2 表示当变异数 的值源自 可能率的范围 则参数的值等于 1 否则参数的值等于 2 选项的最后一种 TYPE=SP (空间型) 其语法较复杂 因为空间型的形式在 MIXED 程序中至少有六种 兹将这六种的形式简述于表 28.2 内 表 28.2 TYPE=SP 的矩阵结构形式六种空间型的语法 SP(SPH) (C) SP(POW) (C) SP(EXP)(C) SP(GAU)(C) SP(LIN)(C) SP(LINL)(C) 说明 球型 指数函数型 对数函数型 常态型 线性型 对数线性型 参数的值 1 或 2 1 1 1 1 1 或 或 或 或 或 2 2 2 2 2 矩阵的表示式 2 [1-(3dij/2 )-(d3ij/2 3)]1(dij Q ij= ) 2 dij ij = 2 [exp(-dij/ )] ij = 2 [exp(-d2ij/ 2)] ij = 2 (1- dij)1( dijQ2) ij = 2 (1- log(dij))1( log(dij) Q2) ij = 44第五部分变异数分析上表 语法 一行中的 (C) 表示 (坐标值) 读者可在括号内列举一系列数值变量 名称串 然后 MIXED 程序根据观察体在这些变量上的值来计算两个点之间的欧氏距离 亦即上表中的 dij 下面列举几个实例以使说明选项 TYPE= 的意义表 28.3 G 矩阵的实例与 TYPE=的撰写G 矩阵形式TYPE=实例简单型双对称型 SIM (内设值)?σ 2 ? ?0 ?0 ? ?0 ?0σ 0 020 0σ2 0σ 212? ? ? ? 2? σ ? ? 0 0 0σ 212 1CS不规则型UN?σ 2 + σ 2 1 ? 2 ?σ 1 ?σ 2 1 ? 2 ? ?σ 1σ +σ σ 21 σ 212σ21σ 2 + σ 21 σ 21? ? σ 1 ? ? σ 21 ? σ 2 + σ 21 ? ?σ 212对角线局限型UN(1)?σ 2 11 ? ?σ 21 ?σ 31 ? ? ?σ 41 ?σ 2 1 ? ?0 ?0 ? ? ?0σ 21 σ 22 σ 32 σ 420σ1 σ σ1 σ22σ 22 0 0自回归型AR(1)3 ρ ?1 ρ2 ρ ? ?ρ ? 1 ρ ρ2? 2? σ ?ρ 2 ρ 1 ρ ? ? 3 ? ρ2 ρ 1 ? ?ρ ? ?σ2 σ1 σ2 σ10 σ1? ? ? ? σ 2 33 ? 2 σ 43 σ 44 ? ? 0 0 ? ? 0 0 ? σ 23 0 ? ? σ 24 ? 0 ?σ 31 σ 32σ 41 σ 42 σ 43杜氏型TOEP?σ 2 ? ?σ 1 ?σ 2 ? ? ?σ 3σ3 ? ? σ2 ? σ1 ? ? σ 2? ?0 0 σ1 ? ? ? ? ? 2 σ ? ? 局限性杜氏型TOEP(2)?σ 2 ? ?σ 1 ?0 ? ?0 ?σ1 σ σ1 02σ2 σ1空间型SP(POW)(c)?1 ρ d 12 ρ d13 ρ d14 ? ? d 21 ? ρ 1 ρ d 23 ρ d24 ? 2? σ ? ρ d31 ρ d 32 1 ρ d 34 ? ? ? d41 ? ρ d42 ρ d 43 1 ? ?ρ ? 第 28 章混合式模型的变异数分析统计程序 PROC MIXED45(2) CL 要求 MIXED 程序计算每一个随机效果 95% 的信赖区间 这个信赖区间是根 据 t 分配而来的 读者可利用下面的选项 ALPHA= 来要求其他准确度的信赖区 间 (3) ALPHA=正实数 这个值相当于第一类型错误的概率值 因此 (1-ALPHA) 代表上述 CL 信赖区 间的准确度 ALPHA 的值必须是小数 如 0.01 其内设值等于 0.05 (4) GDATA=输入资料文件名 这个选项让读者从一个 SAS 资料文件内读取 G 矩阵的元素 GDATA=所界定的 输入资料文件容许读者选用两种不同的方法来呈现 G 矩阵 第一种方法是定义 一个含三直行的数据文件 三直行分别以 ROW COL 及 VALUE 等三个变量 名称来命名 其值分别代表 G 矩阵内的元素 第二种方法直接定义一个对角线对称的正方矩阵 若按这种方法输入 G 矩阵 则输入资料文件内必然含 n 个直行与 n 个横列 n 直行与横列的列数必须以 COL1-COLn 及 ROW 变量名称命名之 (5) SUBJECT=效果名称 或 SUB=效果名称 这个选项用来指认数据中的观察体效果 若读者界定此选项 则 MIXED 程序自 动将 RANDOM 指令中提及的效果镶嵌在 SUBJECT 效果内 如此 G 矩阵就 会沿对角线分割成大小相等的次正方矩阵 每一个次正方矩阵都与一个观察体相 对应 而且 MIXED 程序假设这些次正方矩阵之间是彼此线性独立的 (6) G 要求报表上打印出 G 矩阵内的元素 若元素值等于 0 则以空白在报表上显示 出来 (7) GI 要求报表上打印出 G 矩阵的反矩阵元素 若元素值等于 0 则以空白在报表上 显示出来 (8) SOLUTION (或 S) 要求报表上打印出随机效果的解  指令 #5REPEATED 重复观察效果串 选项串这个指令的目的是为了界定第 28.2 节提到的 R 矩阵 其功用与 ANOVA 程序或 GLM 程序中的 REPEATED 指令相异 MIXED 程序中所提的重复效果必须是一个类别变量 若数据的安排是每一位受试者 有多重的资料卡 则读者必须界定重复效果变量 用来代表资料收集的先后顺序 第 28.5 节范例中的例二 三 四就是根据同一组重复观察的资料而来的 REPEATED 指令的语法与上述 RANDOM 指令类似 删除号 (/) 后面的选项有下面 几个 (1) TYPE=SIM 或 46第五部分变异数分析在这个例子里 INTERCEPT 与 DIAG 两个关键字表示随机效果不但彼此线性独 立 而且其共变异数完全相等 矩阵内对角线上的元素 (变异数) 也完全相等 这样的矩阵结构符合双对称型 (Compound Symmetry) 也可藉 TYPE=CS 界定 如果程序中省略 REPEATED 指令 则 R 矩阵自动被设定成对角线矩阵 其对 角线元素是 2 (共变异数) (2) LOCAL 2 要求在 R 矩阵之外加上额外的 2I 在此 I 是一个单位矩阵 是待估计的变 异数值 LOCAL 这个选项可用来处理时间序列模型中的取样误差或空间模型中 的残差 (3) SUBJECT=效果名称 或 SUB=效果名称 这个选项用来指认数据中的观察体效果 是 REPEATED 指令中不可少的选项 若读者界定此选项 则 R 矩阵就会沿对角线分割成大小相等的次正方矩阵 每 一个次正方矩阵都与一个观察体相对应 而且 MIXED 程序假设这些次正方矩 阵之间是彼此线性独立的 (4) R 要求报表上打印出 R 矩阵内的第一个次正方矩阵内的元素 若元素值等于 0 则以空白在报表上显示出来 (5) RI 要求报表上打印出上述 R 矩阵之第一个次正方矩阵的反矩阵 若矩阵的元素值等于 0 则以空白在报表上显示出来 TYPE=CS 或 TYPE=UN 或 TYPE=UN(q) 或 TYPE=AR(1) 或 TYPE=TOEP 或 TYPE=TOEP(q) 或 TYPE=SP (矩阵的结构) (坐标值) 这个选项定义 R 共变异数矩阵的结构 读者可参考第 4 个指令 RANDOM 下 同样的 TYPE 选项 以了解各种矩阵结构的形式与语法 (参见表 28.1 与 28.2) 上述 TYPE=CS (双对称型) 的语法也可以用 INTERCEPT 及 DIAG 取代 试看 下面的例子REPEATED INTERCEPT DIAG/SUBJECT=EFFECT; 指令 #6PARMS 参数的初值 选项串这个指令旨在界定共变异数矩阵的初值或初值可能存在的范围 PARMS 指令列举这 些初值的先后顺序必须与 RANDOM 或 REPEATED 指令中提及的效果串相对应 初值的撰写方法有下面几种 第 28 章混合式模型的变异数分析统计程序 PROC MIXED47一个固定的值 m n 个不同的初值 m1 m2 ... mn 从 m 增至 n 的一系列初值 相邻两初值的差额为 1 m to n 从 m 增至 n 的一系列初值 相邻两初值的差额为 i m to n by I 上述语法的混合型态 m1 m2 to m3 下面的例子里 我们假设三个变异数的初值各是 60 20 与 6PROC MIXED DATA=SPLIT;上面例子中所使用的选项 NOITER 是为了抑止牛顿-罗福森循环估计的过程 删除号 (/) 后面的选项有下面几个 (1) NOITER 要求 MIXEO 程序以参数的初值为固定值 因此 没有必要再进行牛顿-罗福森 的循环估计过程 若不界定此选项 则参数的初值被视为估计过程的启动值 只 是用来发动牛顿-罗福森的计算程序 (2) RATIOS 这个选项界定参数与残差变异数之间的比例 而非参数本身的值 CLASS BLOCK A B; MODEL Y=A B A*B; RANDOM BLOCK A*BLOCK; PARMS (60) (20) (6)/NOITER;RUN;指令 #7CONTRAST '比较式的名字' 固定效果的系数这个指令旨在进行某些平均数的比较 由于 MIXED 程序可同时接纳固定效果以及 随机效果 CONTRAST 的指令在本程序中比在 ANOVA

我要回帖

更多关于 爱普生l801 的文章

 

随机推荐