请用线性已知需求函数求需求弹性Q=a-bp计算

LCC(全生命周期成本,Life Cycle Cost,简称LCC),也被称为全寿命周期费用。它是指产品在有效使用期间所发生的与该产品有关的所有成本,它包括产品设计成本、制造成本、采购成本、使用成本、维修保养成本、废弃处置成本等。

全生命周期成本管理源起于美国军方,主要用于军事物资的研发和采购,适用于产品使用周期长、材料损耗量大、维护费用高的产品领域。据美国防部当时预测:在一个典型的武器系统中,运行和维护的成本占总成本的75%, 如果武器系统的成本按照当时的增加趋势, 那么在2045年美国的全年国防预算只能购买1架战斗机。1999年6月,美国总统克林顿签署政府命令,各州所需的装备和工程项目,要求必须有LCC报告,没有LCC估算、评价,一律不准签约。

LCC 技术自上个世纪 80 年代初期引入我国。我国的 LCC 工作由海军起头,空军、二炮都积极推广运用。1987 年 11月中国设备管理协会成立了设备寿命周期费用委员会,致力于推动 LCC 理论方法的研究和应用。尽管我国的寿命周期费用方法的应用和研究起步很晚,但取得的成绩明显。寿命周期费用方法在不少军用和民用单位的应用并取得了一批成果。如国防系统的空军、海军、二炮、航天等许多单位在研究和应用 LCC 上取得了可喜的成绩。国军标“装备费用—效能分析”,军队使用标准“武器装备寿命周期费用估算”,已分别在 1993 年、1998 年颁布实施。军事装备的论证与审核中,都把 LCC作为一项必不可少的内容,军委领导机构的管理体制也作了相应的调整,专门成立了总装备部,LCC工作正在向前全面推进。在民用企业、高校、研究院所中,也有不少单位正在积极研究和应用 LCC方法用于设备选型、维修决策、更新改造、维修费用控制。[1]

对项目、产品进行评价时,在 LCC 最小的基础上,提出费用效益、LCC效益比等作为决策的依据,使决策更加科学。随着设备维护成本在寿命周期费用中的比例的增加,在国内外的设备招标评标中,LCC 必将成为用户的一项基本要求,即用户在购置商品时,不仅考虑购置费,而且要认真考虑整个寿命周期中预期的使用费和维修费的大小,在招标、签约文件中将出现对 LCC指标的要求,并将作为今后追究经济责任的依据。[1]

LCC管理理念核心在于:单件产品的研制和生产成本(采购费用)不足以说明产品总费用的高低,决策人员不应把采购费和使用维护费分割开来考虑,而必须把这几者结合起来,作为产品的全寿命周期费用进行总体考虑。

对产品购置和使用等费用的综合评估,有利于提升产品性能、RAMS(可靠性、可用性、维修性和安全性)等要求,同时降低后期的使用成本。

使用周期较长、运维较为复杂的商品中,采购成本占LCC的比例在10%-50%之间。

客车的LCC成本结构中,采购成本仅是车辆LCC成本的冰山一角,只占LCC的15%左右。而后期持续产生的燃料成本、维保成本等使用成本占70%,却未在采购决策中给予重视。

车辆全生命周期成本项目中,人工成本费用相对固定,所以降本的关键在于降低油耗燃料损耗、控制保养费用、减少故障维修与大修的频次与单价。

1)主要构件检修成本:如发动机、桥、变速箱、空调压缩机等的检修时间间隔及检修成本。

2)次要构件及消耗件检修成本:如空压机、制动鼓、轮胎、蓄电池等检修及更换成本

3)空调系统及门系统的检修维护成本:空调系统的各个组件以及车门系统的各个组件的检修及维护成本

4)燃料成本及预防维护成本:17年间每台车燃料及各种润滑油的消耗量。

随着房地产市场调控,企业经济效益下滑,中央与地方两级财政收入的增速都在大幅减缓。经济形势势必会促使政府对公交企业的补贴额度进一步加强控制。公交的非市场化及财政补贴方式预计将会在未来的5~10年中逐渐扭转。

城市公交万人拥有量逐年增加,所需政府补贴逐年攀升,但并没有缓解公交公司主营业务亏损额扩大的现实。很多公交公司都出现补贴不足,资金难以到位,主营业务亏损额逐年扩大。

由于油价攀升、车型档次的提高,公交公司成本费用增幅较大,而营业收入相对稳定,公交公司运营困难重重。

运营成本的压力促使企业过于关注车辆采购价格,而淡化了后期使用成本的巨大差异,造成车辆后期维护费用偏高的恶性循环。

某市政府为了提高公交补贴使用效率,提升公交服务质量,降低政府财政负担,针对公交线路经营权采取补贴金额招标政策,补贴报价较低的资质公司中标线路经营权,因此,中标的公交公司将面对降本增效,实现盈利的课题。

样板客户自2010年开始正式和宇通客车合作后,依据车辆全生命周期成本管理理念,摸索出了一套车辆投入和管理模式,有效的降低了车辆总成本,在补贴额度由1.1亿元降低到8000万(10年、4条线路)后,通过此模式公司盈利不降反升。该模式为各城市的民营公交公司,实现公交低成本、高效率运营,和高质量服务社会的目标提供了典型的成功经验。

LCC:宇通单车LCC总成本约237.7万,对比车型261.6万元,成本比对比车型降低23.9万。

CI:按同样使用寿命计算,宇通每年折旧费仅比竞品高1000元左右。

CO:宇通单车百公里油耗比竞品低13%,年度油耗成本宇通约低1.98万元。

CM:单车月均维修保养材料费用低19%,年度约低2630元。

CF:车身电泳8-10年无大修,PVC地板、整车线束等无需更换。常规大修费用共节省25000元;发动机大修两车均为5年一次,每次15000元。

1)燃油消耗为何能相差13%?

通过线路匹配和各种节能技术的应用,宇通单车月度燃料消耗约比对比品牌低256升,节油比例达到13%。

13%的节油优势来源于发动机热管理、轻量化等先进的节油技术以及为客户提供的车线匹配服务:

· 发动机最佳工作状态是85~96度左右,此时燃烧、润滑品质最好,油耗低,发动机寿命长

· 控制发动机工作状态

· 在保证整车散热能力前提下,减少不必要功率消耗

· 通过整车冷却系统匹配优化,冷却空气流场优化

· 提高整车冷却能力,减少风扇不必要的功耗

· 应用CAE有限元分析技术,通过精确的分析,优化车身结构设计

· 在减重的同时保证了结构强度,降重不降耐久性、安全性和NVH性能

· 提高了燃油经济性,降低了排放,提高了操控灵敏性,降低了噪音和振动

每降低1吨,能够节省1.7升燃油消耗。

宇通通过车线匹配,为客户提供最适合目标线路运营的车辆。

宇通采用专业软件计算分析路谱采集,根据线路特点匹配样车配置;收集样车试用人员、管理人员意见,并结合实际油耗进行优化;提供样车运行和优化方案,定型线路车辆配置;形成转为此类线路生成的固定配置;形成专为样板公司批量生产的BOM。

2)维保费用为何能相差 19%?

降低维保成本只有从降低保养成本,减少维修次数与成本入手。19%的维保费用优势来源于宇通过硬的产品品质与双直服务模式。自从2010年宇通与样板公司合作以来,公司车辆维修次数下降了27%,2011年又下降了61%,两年累计降低71%。

宇通在技术、工艺、原材料方面的严格管理,大幅度提高了整车可靠性,降低了后期车辆维修次数。

· 全天候车辆稳定性试验台及质检设备

· 整车强化全路况道路模拟试验

· 全国采集各种典型路况路谱

· 百万公里破坏性试验

· 底盘强化全路况道路模拟试验

· 24小时不间断疲劳试验,解决关键零部件可靠性问题。

· 轻量化延长了关键总成与轮胎的使用寿命。

· 橡胶件、塑料件老化试验、型材金像实验、电子器件可靠性试验等。

宇通为战略合作客户提供双直服务:直接建站+配件直供,缩减了中间渠道,提高响应速度,提升了配件质量保证,降低了配件管理费用,并实现了维保技能与标准的对接。

宇通采用LCC工程六步法:路谱采集→车线匹配→解决方案→试用培训→签订协议→跟踪回访,为客户创造更大价值。

· 由专门技术人员采用路谱采集仪器到客户预计更新的线路进行路谱采集;

· 此数据作为车线匹配的关键输入,为客户打造最适合其线路运营的车辆解决方案。

· 借助宇通国家级技术中心先进的模拟试验技术,为线路选定燃油经济性最佳的动力匹配;

· 由宇通先进的配置器管理系统根据其他道路条件为客户提供产品整体配置方案。

· 由宇通客户经理为客户提供综合解决方案。

· 解决方案从安节价值体系出发,包括车辆解决方案、节能驾驶技能提升方案、管理方案及其他客户需求

· 宇通提供专门团队为意向客户提供车辆试用;

· 车辆试用过程中,对更新线路驾驶员进行节能驾驶培训;

· 节能驾驶培训后,由驾驶员在拟更新线路(选取往返50公里左右)进行节油驾驶比赛;

· 节能驾驶培训后,选其中一名参赛选手,在拟更新线路上进行油耗测试,预估实际运营油耗;

· 全过程用专业油耗仪进行精密测量与监控。

· 由合作双方签订购车合同;

· 在车价不低于宇通报价,并同意宇通的数据跟踪条件的情况下,双方签订《LCC能耗达标协议》;

· 协议双方约定目标线路能耗值,在一年跟踪期内如出现高于约定能耗值,则由宇通派遣专业团队进行诊断。若确因车辆原因,则宇通按照一年能耗差额对购车企业进行赔偿。

· 车辆批量到位一年中,宇通将开展数据跟踪与回访工作;

· 批量接车后,宇通将为客户提供安节通的应用培训工作;

· 回访中将为客户提供车辆发动机、轮胎等与油耗相关的关键部件的维保培训与咨询工作;

· 跟踪过程中一旦发现数据异常,宇通将第一时间与客户沟通,对异常进行诊断、解决。

  1. 通常,数字,字母,. 和 _都是允许的(在一些国家还包括重音字母)。不过,一个命名必须以 . 或者字母开头,并且如果以 . 开头,第二个字符不允许是数字。
  2. 命令可以被 (;)隔开,或者另起一行。
  3. 基本命令可以通过大括弧({和}) 放在一起构成一个复合表达式(compound expression)。
  4. 一行中,从井号(#)开始到句子收尾之间的语句就是是注释。
  5. R是动态类型、强类型的语言。
  6. R的基本数据类型有数值型(numeric)、字符型(character)、复数型(complex)和逻辑型(logical),对象类型有向量、因子、数组、矩阵、数据框、列表、时间序列。

ESC——中断当前计算

cat()——查看变量?

help("[[") 对于特殊含义字符,加上双引号或者单引号变成字符串,也适用于有语法涵义的关键字 if,for 和 function

help.search()——允许以任何方式(话题)搜索帮助文档

example(topic)——查看某个帮助主题示例

getwd()——获取当前工作文件目录

list.files()——查看当前文件目录中的文件

search()——通过search()函数,可以查看到R启动时默认加载7个核心包。

基础函数:数学计算函数,统计计算函数,日期函数,包加载函数,数据处理函数,函数操作函数,图形设备函数

data()——列出可以被获取到的存在的数据集(base包的数据集)

批处理文件和结果重定向

sink()——把后续代码输出重新恢复到终端上展示

注:attach()detach()均是在默认变量搜索路径表中由前向后找到第一个符合变量名称,因此之前若存在重名变量,有可能会出现问题!!!

输入输出读入输出数据、文件)

x <- scan(file="")——手动输入数据,同时scan可以指定输入变量的数据类型,适合大数据文件

print()——打印

save.image("./data.RData")——把原本在计算机内存中(工作空间)活动的数据转存到硬盘中。

load("./RData")——加载目录中的*.RData,把文档-词项矩阵从磁盘加载到内存中

R是一种基于对象(Object)的语言,对象具有很多属性(Attribute),其中一种重要的属性就是类(Class),最基本的类包括了数值(numeric)、逻辑(logical)、字符(character)、列表(list),符合类包括矩阵(matrix)、数组(array)、因子(factor)、数据框(dataframe)。

mode()——查看基本数据类型

as.<数据类型>——改变对象的数据类型

逻辑类型+数值类型=数值类型

逻辑类型+字符类型=字符类型

数值类型+字符类型=字符类型

methods(x)——查看x函数的源码,有些自带函数输入名称x可以直接看到,有一些需要调用methods方法才能查看函数x的源码,出现多重名,输入对应名称即可

str()——查看数据(框)中的数据总体信息(比如样本个数、变量个数、属性变量名称、类型)

*|,&,!——或且非,注意是单个不是&&!

ANY,ALL——任意,全部

apply(A,Margin,FUN,...)——A为矩阵,Margin设定待处理的维数,为1是横排(行),为2是竖排(列)做运算,Fun是运算函数

points(x,y)————低级绘图,画个点,坐标为向量x,y

lines(x,y)——低级绘图,画一条线,坐标为向量x,y

barplot(<vector>)——绘制柱状图,vector可增加名称。也可以绘制直方图,和hist()均分数据不太一样,需要用table()统计各个子分段下样本数量后在画图。

image(volcano)——加载栅格(矩阵)图像

par(mfrow=c(1,2),oma,mar)——mfrow设置图形输出窗口为1行2列,添加car包?oma是所有图像距离边框的距离(底部,左边,顶部,右边),mar是每幅图像对边框的距离,默认是c(5, 4, 4, 2) + 0.1。

rug(jitter(<data>),side =2)——检验离群点数据,rug()原图中执行绘图绘制在横坐标上,side为2是纵坐标,jitter(<data>)对绘制值略微调整,增加随机排序以避免标记值作图重合。

pairs(data)——数据框各个变量的散布图

coplot(y~x|a+b)——多个变量时的散点图,在a,b(向量或是因子)的划分下的y与x的散点图

identify(<data>)——交互式点选,单击图形中的点,将会输出对应数据的行号,右击结束交互

boxplot()——箱图,研究变量的中心趋势,以及变量发散情况和离群值。上体顶部和底部为上下四分位数,中间粗线为中位数,上下伸出的垂直部分为数据的散步范围,最远点为1.5倍四分为点,超出后为异常点,用圆圈表示。boxplot(y~f,notch=TRUE,col=1:3,add=TRUE)#y是数据,f是由因子构成,notch是带有切口的箱型图,add=T图叠加到上一幅图。

plot(f,y)——箱线图,f是因子,y是与f因子对应的数值

stripplot(x1~y|x2)——lattice包的复杂箱图,存在两个因子x1,x2控制下的y, x2按照从左到右,从下到上的顺序排列,左下方的x2值较小

colors()——列出对应的颜色数组

qcc()——qcc包,监控转化率型指标的质量监控图(P控制图),监控异常点,前提是二项分布足够大后趋于正态分布

optim(c(0,0),<func>)——优化问题函数,c(0,0)是优化函数参数的初始值,返回值par是参数最优点值,value是参数的最优点时平方误差值,counts是返回执行输入函数func的次数以及梯度gradient的次数,convergence值为0表示有把握找到最优点,非0值时对应错误,message是一些其它信息。

Round ——取整。精确

ceiling()——取整,偏向数值小的

floor() ——取整,偏向数值大的

edit()——编辑数据表格

rm(x,y)——移除对象(变量)x和y

na.fail()——如果向量中至少包括1个NA值,则返回错误;如果不包括任何NA,则返回原有向量

merge函数参数的说明:

注:apply与其它函数不同,它并不能明显改善计算效率,因为它本身内置为循环运算。

transform(x,y)——将x和y的列转换成·一个数据框。

melt(data,id.vars)——转换数据溶解。修改数据组织结构,创建一个数据矩阵,以id.var作为每行的编号,剩余列数据取值仅作为1列数值,并用原列名作为新数值的分类标记。

cast(data, userid~itemid,value="rattings",fill=0)——统计转换数据,生成矩阵,公式~左边的作为行表名,右边的作为列表名。之后可以用cor()计算每列数据之间的相关系数,并计算距离。

nchar()——获取字符串长度,它能够获取字符串的长度,它也支持字符串向量操作。注意它和length()的结果是有区别的?什么区别

paste("a", "b", sep="")——字符串粘合,负责将若干个字符串相连结,返回成单独的字符串。其优点在于,就算有的处理对象不是字符型也能自动转为字符型。

strsplit(A,split='[,.]') ——字符串分割,负责将字符串按照某种分割形式将其进行划分,它正是paste()的逆操作。

substr(data,start,stop)——字符串截取,能对给定的字符串对象取出子集,其参数是子集所处的起始和终止位置。子集为从start到stop的下标区间

grep()——字符串匹配,负责搜索给定字符串对象中特定表达式 ,并返回其位置索引。grepl()函数与之类似,但其后面的"l"则意味着返回的将是逻辑值

gregexpr()——只查询匹配的第一个特定字符串的下标位置

gsub("a",1,<vector>)——字符串替代,负责搜索字符串的特定表达式,并用新的内容加以替代。

sub()函数——和gsub是类似的,但只替代第一个发现结果。

if—else——分支语句

while——循环语句,通过设定循环范围

向量数组初始小标序号从1开始

向量增加元素可以直接通过“vector[n+1]<-0”方式增加

vector["A"]——通过名称访问对应元素

c(0,1)——创建向量,向量内元素类型应一致!

seq(5,9) 5:9 ——连续向量,等差数列

seq(5,9,0.5)——以0.5为间隔创建

match(x,table,nomatch,incomparables)——匹配函数,返回x对应值在table中是否存在,并从1开始编号。x是查询对象,table是待匹配的向量,nomatch是不匹配项的设置值(默认为NA值),incomparables设置table表中不参加匹配的数值,默认为NULL

order()——排序,多个变量数据框排序,返回数据框序号数。

rank()——秩排序,有重复数字的时候就用这个,根据数值之间的远近输出序号

rev()——依据下标从后往前倒排数据

duplicated(x)——查找重复数据,重复序号返回为TRUE

pmin(x1,x2,...)——比较向量中的各元素,并把较小的元素组成新向量

union(x, y)——(并集)合并两组数据,x和y是没有重复的同一类数据,比如向量集

intersect(x, y)——(交集)对两组数据求交集,x和y是没有重复的同一类数据,比如向量集

setdiff(x, y)——(补集)x中与y不同的数据,x和y是没有重复的同一类数据,比如向量集,重复不同不记

setequal(x, y)——判断x与y相同,返回逻辑变量,True为相同,False不同。x和y是没有重复的同一类数据,比如向量集

is.element(x, y)  %n%——对x中每个元素,判断是否在y中存在,TRUE为x,y重共有的元素,Fasle为y中没有。x和y是没有重复的同一类数据,比如向量集

Vectorize()——将不能进行向量化预算的函数进行转化

rbind()——矩阵合并,按行合并,自变量宽度应该相等

cbind()——矩阵合并,安列合并,自变量高度应该相等

solve(A)——求逆矩阵

eigen(A) ——求距阵的特征值与特征向量,Ax=(Lambda)x,A$values是矩阵的特征值构成的向量,A$vectors是A的特征向量构成的矩阵

*——矩阵中每个元素对应相乘

向量里面存的元素类型可以是字符型,而因子里面存的是整型数值对应因子的类别(levels)

gl(n,k,length)——因子,n为水平数,k为重复的次数,length为结果的长度

as.factror()——将向量转化为无序因子,不能比较大小

as.order()——将向量转化为有序因子

is.order()——判断是否为有序因子

unlist()——列表转化为向量

is.na()——判断na值存在,na是指该数值缺失但是存在。

2、用最高频率值来填补缺失值

3、通过变量的相关关系来填补缺失值

4、通过探索案例之间的相似性来填补缺失值

a:b——a和b的交互效应

a+b——a和b的相加效应

a*b——相加和交互效应(等价于a+b+a:b)

1——y~1拟合一个没有因子影响的模型(仅仅是截距)

-1——y~x-1表示通过原点的线性回归(等价于y~x+0或者0+y~x)

var()——样本方差(n-1)

sd——样本标准差(n-1)

fivenum(x,na.rm=TRUE)——五数总括:中位数,下上四分位数,最小值,最大值

sum(x>4)——统计向量x中数值大于4的个数

sqrt()——开平方函数

abs()——绝对值函数

'%/%'——求商(整数)

expm1  : 当x的绝对值比1小很多的时候,它将能更加正确的计算exp(x)-1

因为10>e>1,常用对数比自然对数更接近横坐标轴x

log1p()——log(1+p),用来解决对数变换时自变量p=0的情况。指数和对数的变换得出任何值的0次幂都是1

特性:对数螺旋图。当图像呈指数型增长时,常对等式的两边同时取对数已转换成线性关系

圆周率用 ‘pi’表示

rnorm(n,mean=0.sd=1)——生成n个正态分布随机数构成的向量

qnorm()——下分为点函数

qqline(data)——低水平作图,用qq图的散点画线

summary()——描述统计摘要,和 Hmisc()包的describe()类似,会显示NA值,四分位距是第1个(25%取值小于该值)和第3个四分位数(75%取值小于该值)的差值(50%取值的数值),可以衡量变量与其中心值的偏离程度,值越大则偏离越大。

hist(<data>,prob=T,xlab='横坐标标题',main='标题',ylim=0:1,freq,breaks=seq(0,550,2))——prob=T表示是频率直方图,在直角坐标系中,用横轴每个小区间对应一个组的组距,纵轴表示频率与组距的比值,直方图面积之和为1;prob位FALSE表示频数直方图;ylim设置纵坐标的取值范围;freq为TRUE绘出频率直方图,counts绘出频数直方图,FALSE绘出密度直方图。breaks设置直方图横轴取点间隔,如seq(0,550,2)表示间隔为2,从0到550之间的数值。

chisq.test(x,y,p)——Pearson拟合优度X2(卡方)检验,x是各个区间的频数,p是原假设落在小区间的理论概率,默认值表示均匀分布,要检验其它分布,比如正态分布时先构造小区间,并计算各个区间的概率值,方法如下:

var.test(x,y)——双样本方差比的区间估计

独立性检验(原假设H0:X与Y独立)

相关性检验(原假设H0:X与Y相互独立)

wilcox.test(x,y=NULL,mu,alternative,paired=FALSE,exact=FALSE,correct=FALSE,conf.int=FALSE)——秩显著性检验(一个样本来源于总体的检验,显著性差异的检验),Wilcoxon秩和检验(非成对样本的秩次和检验),mu是待检测参数,比如中值,paired逻辑变量,说明变量x,y是否为成对数据,exact说民是否精确计算P值,correct是逻辑变量,说明是否对p值采用连续性修正,conf.int是逻辑变量,给出相应的置信区间。

nlm(f,p)——求解无约束问题,求解最小值,f是极小的目标函数,p是所有参数的初值,采用Newton型算法求极小,函数返回值是一个列表,包含极小值、极小点的估计值、极小点处的梯度、Hesse矩阵以及求解所需的迭代次数等。

显著性差异检验方差分析,原假设:相同,相关性)

mcnemar.test(x,y,correct=FALSE)——相同个体上的两次检验,检验两元数据的两个相关分布的频数比变化的显著性,即原假设是相关分布是相同的。y是又因子构成的对象,当x是矩阵时此值无效。

aov(x~f)——计算方差分析表,x是与(因子)f对应因素水平的取值,用summary()函数查看信息

aov(x~A+B+A:B)——双因素方差,其中X~A+B中A和B是不同因素的水平因子(不考虑交互作用),A:B代表交互作用生成的因子

friedman.test(x,f1,f2,data)——Friedman秩和检验,不满足正态分布和方差齐性,f1是不同水平的因子,f2是试验次数的因子

lm(y~.,<data>)——线性回归模型,“.”代表数据中所有除y列以外的变量,变量可以是名义变量(虚拟变量,k个水平因子,生成k-1个辅助变量(值为0或1))

summary()——给出建模的诊断信息:

2、检验多元回归方程系数(变量)的重要性,t检验法,Pr>|t|, Pr值越小该系数越重要(拒绝原假设)

3、多元R方或者调整R2方,标识模型与数据的拟合程度,即模型所能解释的数据变差比例,R方越接近1模型拟合越好,越小,越差。调整R方考虑回归模型中参数的数量,更加严格

4、检验解释变量x与目标变量y之间存在的依赖关系,统计量F,用p-value值,p值越小越好

6、精简线性模型,向后消元法

predict(lm(y~x))——直接用用原模型的自变量做预测,生成估计值

plot(x,which)——回归模型残差图,which=1~4分别代表画普通残差与拟合值的残差图,画正态QQ的残差图,画标准化残差的开方与拟合值的残差图,画Cook统

influence.measures(model)——model是由lm或者glm构成的对象,对回归诊断作总括,返回列表中包括,广义线性模型也可以使用

anova(<lm>)——简单线性模型拟合的方差分析(确定各个变量的作用)

3、线性——car包crPlots()绘制成分残差图(偏残差图)可以看因变量与自变量之间是否呈线性

4、同方差性——car包ncvTest()原假设为误差方差不变,若拒绝原假设,则说明存在异方差性

5、多重共线性——car包中的vif()函数计算VIF方差膨胀因子,一般vif>2存在多重共线性问题

异常点分析(影响分析)

kappa(z,exact=FALSE)——多重共线性,计算矩阵的条件数k,若k<100则认为多重共线性的程度很小;100<=k<=1000则认为存在中等程度或较强的多重共线性;若k>1000则认为存在严重的多重共线性。z是自变量矩阵(标准化,中心化的?相关矩阵),exact是逻辑变量,当其为TRUE时计算精准条件数,否则计算近似条件数。用eigen(z)计算特征值和特征向量,最小的特征值对应的特征向量为共线的系数。

step()——逐步回归,观察AIC和残差平方和最小,广义线性模型也可以使用

glm(formula,family=binomial(link=logit),data=data.frame)——广义线性模型,logit默认为二项分布族的链接函数,formula有两种输入方法,一种方法是输入成功和失败的次数,另一种像线性模型的公式输入方式

glmnet()——正则化glm函数,glmnet包,执行结果的行数越前正则化越强。其输出结果的意义是:

1)DF是指明非0权重个数,但不包括截距项。可以认为大部分输入特征的权重为0时,这个模型就是稀疏的(sparse)。

3)超参数(lambda)是正则化参数。lambda越大,说明越在意模型的复杂度,其惩罚越大,使得模型所有权重趋向于0。

plot”))——画回归模型残差图,which为1表示画普通残差与拟合值的残差图,2表示画正态QQ的残差图,3表示画标准化残差的开方与拟合值的残差图,4表示画Cook统计量的残差图;caption是图题的内容。

avova(sol1,sol2,test="Chisq")——比较模型两个模型,广义线性模型可用卡方检验(分类变量),不拒绝原假设说明两个没有显著差异,即用较少自变量模型就可以。

poly(想,degree=1)——计算正交多现实,x是数值向量,degree是正交多项式的阶数,并且degree<length(x)样本个数,例如建立二次正交式回归模型:lm(y~1+poly(x,2))

nls(formula,data,start)——求解非线性最小二乘问题,formula是包括变量和非线性拟合的公式,start是初始点,用列表形式给出

nlm(f,p)——非线性最小二乘,构造最小目标函数,方程移项2为0,f是极小的目标函数,p是所有参数的初值,采用Newton型算法求极小,函数返回值是一个列表,minimum的值便是极小值,estimate是参数的估计值。例如:

rpart( y ~., <data>)——rpart包,回归树,叶结点目标变量的平均值就是树的预测值。生成一棵树,再做修剪(防止过度拟合),内部10折交叉验证

printcp(<rt>)——查看回归树结果,rt是指rpart()函数的运行结果模型,plotcp(<rt>)以图形方式显示回归树的参数信息

snip.rpart(<rt>, c(4,7))——修剪,需要修剪的那个地方的是结点号c(4,7),指出输出树对象来需要修剪的树的结点号

randomForest(y ~., <data>)——组合模型,由大量树模型构成,回归任务采用预测结果的平均值。

ymd()——lubridate包,将"年-月-日"格式的字符串转换成日期对象,(可以比较前后时间)

arima(data,order=c(p,d,q))——计算模型参数并建模,TSA包中,order设置AR过程的阶数p,差分过程的d(用于稳定化)和MA过程的阶数q。当p=d=0时,表示只使用MA过程对序列建模。结果sol<-arima()调用predict(sol,n.ahead=5)$pred进行预测,n.ahead参数用于设置预测新阶段的数据量(未来5个月),predict(...)$se标准误差SE,用于计算预测范围(预测范围=预测值+-置信度(alpha)*标准误差SE。

eacf(data)——根据凸显中三角区域顶点的行坐标和列坐标分别确定ARMA的p和q

tsdiag(sol)——绘制模型残差的散点图、自相关图和不同阶数下的Box.test体检验p-value值

”manhattan“绝对值(马氏)距离

“binary”定性变量的距离

hclust(d,method=“complete”)——系统聚类,d是又dist构成的距离结构,method是系统聚类的方法(默认为最长距离法)

“single”最短距离法“;

”median“中间距离法;

”ward“离差平法和法

plot(hclist(),hang=0.1)——谱系图,hang表示谱系图中各类所在的位置,hang取负值时,表示谱系图从底部画起。

as.dist()——将普通矩阵转化为聚类分析用的距离结构

rect.hclust(x,k,h,border)——在谱系图(plclust())中标注聚类情况,确定聚类个数的函数,x是由hclust生成的对象,k是类个数;h是谱系图中的阈值,要求分成的各类的距离大于h;border是数或向量,标明矩形框的颜色;例如:rec.hclust(hclust(),k=3)

princomp() 和 prcomp()——主成分分析,结果的标准差显示每一个主成分的贡献率(成分方差占总方差的比例),返回值loadings每一列代表每一个成分的载荷因子

loadings(x)——显示主成分或因子分析中loadings载荷的内容,主成分是对应割裂,即正交矩阵Q;因子分析中是载荷因子矩阵。x是princomp()或者factanal()得到的对象。

predict(x,newdata)——预测主成分的值,x是由princomp()得到的对象,newdata是由预测值构成的数据框,当newdata为默认值时预测已有数据的主成分值。例如predict(<pca>)[,1]——用主成分的第一列作为原有数据的预测结果

screeplot(x,type=c("barplot",”lines“))——主成分的碎石图,确定主成分维数的选择,x是由princomp()得到的对象,type是描述画出的碎石图的类型,”barplot“是直方图,”lines“是直线图。

biplot(x,choices=1:2,scale=1)——画关于主成分的散点图和原坐标在主成分下的方向,x是由princomp()得到的对象,choices选择主成分,默认为第1、2主成分

rpart——决策树算法

dplyr——输出处理包

tbl_df()——将数据转换为一种特殊的数据框类型tbl,类似(as.data.frame()),仅是改变了显示,数据结构没有变化

data()——查看R自带数据列表

iris——鸢尾花数据集总共150行3种类别

nnet()——在nnet包中BP神经网络,存在一层的隐藏层。

size=0,设置隐藏层中神经元数,设置为0时,表示建立一层神经网络?没有隐藏层

Wts:初始系数,不设定则使用随机数设定

linout:为TRUE时,模型输出(目标变量)为连续型实数,一般用于回归分析;如果为FALSE(默认取值)则输出为逻辑数据,一般用于(目标变量为分类型)分类分析,也可以把linout设为TRUE再添加一个阶跃函数转为逻辑型输出。

maxit:最大迭代次数iterations,默认为100次,一般尽量将maxit设置大于观测结果final value上显示的迭代次数。

skip:是否跳过隐藏层,如果为FALSE(默认),则不跳过

decay:加权系数的衰减

ksvm()——kernlab包中分类,分类时用的默认参数树径向基核函数

RWeka包:C4.5(分类,输入变量是分类型或连续型,输出变量是分类型)

rpart包:分类回归树(CART)算法(输入、输出分类或连续变量)

rpart()——拟合树模型,参数xval设置k折交叉验证

party包:条件推理决策树(CHAID)算法(输入、输出分类或连续变量)

randomForest包:分类与回归树的随机森林

randomForest()——随机森林,预测,分类,估计变量的重要性(通过计算每个变量被移除后随机森林误差的增加(选择变量需要用到模型的信息,但用其它模型来做预测)

party包:条件推理决策树的随机森林

ts——在stats包中创建一个时间序列

coredata()——获取时间序列的数值

nativeBayes()——朴素贝叶斯分类器,可以处理分类型和连续型自变量

TTR包——技术指标集合

quantmod包——分析金融数据

function(fromula, train, test,...)——特殊参数“...",允许特定函数具有可变参数,这个参数结构是一个列表,用来获取传递给前三个命名参数之后的所有参数。这个结构用于给实际模型传递所需要的额外参数。

(R这种直接在分布前面加前缀的语法太难读了,pt() 误以为还是一个函数,实际上的含义是p(t()),为什么不写成这个格式呢? 不过t()返回什么好...)

若概率0<p<1,随机变量X或它的概率分布的分位数Za。是指满足条件p(X>Za)=α的实数。如t分布的分位数表,自由度f=20和α=0.05时的分位数为1.7247。 --这个定义指的是上侧α分位数

掷骰子,掷到一即视为成功。则每次掷骰的成功率是1/6。要掷出三次一,所需的掷骰次数属于集合 { 3, 4, 5, 6, ... } 。掷到三次一的掷骰次数是负二项分布的随机变量。

rnbinom(n,size,prob,mu) 其中n是需要产生的随机数个数,size是概率函数中的r,即连续成功的次数,prob是单词成功的概率,mu未知..(mu是希腊字母υ的读音)

n次伯努利试验,前n-1次皆失败,第n次才成功的机率

它描述了由有限个(m+n)物件中抽出k个物件,成功抽出指定种类的物件的次数(不归还)。

当n=1时,这是一个0-1分布即伯努利分布,当n接近无穷大∞时,超几何分布可视为二项分布

rhyper(nn,m,n,k),nn是需要产生的随机数个数,m是白球数(计算目标是取到x个白球的概率),n是黑球数,k是抽取出的球个数

泊松分布的参数λ是单位时间(或单位面积)内随机事件的平均发生率.泊松分布适合于描述单位时间内随机事件发生的次数。如某一服务设施在一定时间内到达的人数,电话交换机接到呼叫的次数,汽车站台的候客人数,机器出现的故障数,自然灾害发生的次数等等.

对于连续变量,dfunction的值是x去特定值代入概率密度函数得到的函数值。

理论上可以证明如果把许多小作用加起来看做一个变量,那么这个变量服从正态分布

画出正态分布概率密度函数的大致图形:

用正太分布产生一个16位长的随机数字:

假设随机变量X为 等到第α件事发生所需之等候时间。

指数分布可以用来表示独立随机事件发生的时间间隔,比如旅客进机场的时间间隔、中文维基百科新条目出现的时间间隔等等。

假设在公交站台等公交车平均10分钟有一趟车,那么每小时候有6趟车,即每小时出现车的次数~ Exponential(1/6)

60/(rexp10,1/6)即为我们在站台等车的随机时间,如下:

可以看见竟然有一个42.6分钟的随机数出现,据说这种情况下你可以投诉上海的公交公司。

不过x符合指数分布,1/x还符合指数分布吗?

按照以上分析一个小时出现的公交车次数应该不符合指数分布。

它广泛的运用于检测数学模型是否适合所得的数据,以及数据间的相关性。数据并不需要呈正态分布

k个标准正态变量的平方和即为自由度为k的卡方分布。

变量x仅能出现于0到1之间。

空气中含有的气体状态的水分。表示这种水分的一种办法就是相对湿度。即现在的含水量与空气的最大含水量(饱和含水量)的比值。我们听到的天气预告用语中就经常使用相对湿度这个名词。

相对湿度的值显然仅能出现于0到1之间(经常用百分比表示)。冬季塔里木盆地的日最大相对湿度和夏季日最小相对湿度。证实它们都符合贝塔分布

应用在当对呈正态分布的母群体的均值进行估计。当母群体的标准差是未知的但却又需要估计时,我们可以运用学生t 分布。

学生t 分布可简称为t 分布。其推导由威廉·戈塞于1908年首先发表,当时他还在都柏林的健力士酿酒厂工作。因为不能以他本人的名义发表,所以论文使用了学生(Student)这一笔名。之后t 检验以及相关理论经由罗纳德·费雪的工作发扬光大,而正是他将此分布称为学生分布。

一个F-分布的随机变量是两个卡方分布变量的比率。F-分布被广泛应用于似然比率检验,特别是方差分析中

df1,df2是两个自由度,ncp同t分布中的ncp。

《光谱学与光谱分析》2020年, 第40卷,第04期



李振波1, 2, 3,钮冰姗1,彭 芳1,李光耀1




在鱼苗养殖过程中, 同一养殖池会出现个体大的鱼苗攻击个体小的鱼苗, 个体小的鱼苗会出现伤病甚至死亡, 造成经济损失, 鱼苗分塘和售卖价格主要与其体长参数相关,因此需要对不同大小的鱼苗进行分离。鱼苗分类主要依赖于不同大小的网筛,费时费力,且容易对鱼苗造成损伤。针对传统人工分离方法效率低下并且缺乏科学指导的问题, 本文提出了基于可见光谱的鱼苗体长估测方法研究, 能够根据鱼苗图像计算鱼苗长度并进行分类。为了精确无损的获取鱼苗的体长,提出了基于迁移学习ResNet50模型的鱼苗体长估测方法。首先采集在同等高度条件下拍摄的不同长度鱼苗图像,同时手工测量鱼苗的实际长度作为数据集的标签,用四种迁移学习模型AlexNet, VGG16, GoogLeNet, ResNet50对鱼苗体长进行估算,通过验证集准确率,测试集准确率,以及不同方法的运行时间三个指标进行分析,AlexNet模型验证集准确率90.04%,测试集准确率89.82%,运行时间52 min 3 s;VGG16模型验证集准确率91.01%,测试集准确率91.17%,运行时间131 min 37 Network架构,用迁移学习的方法将在ImageNet上训练得到的卷积层的参数传递到训练所使用的模型上,并调整softmax层适应本文问题。对来自10种不同长度的6 677个样本的鱼苗数据集上的实验结果表明该方法可以有效地用于鱼苗分类,通过对模型ResNet50的迁移学习的层数,迭代次数,学习率,最小批处理尺寸(Mini Batch Size)进行微调以优化模型。实验结果表明,当迁移学习模型的迁移层数为30,迭代次数为6,学习率为0.001,Mini Batch Size为10时,方法效果达到最优,模型的验证集准确率94.31%,测试集的准确率达到93.93%。该算法与传统的图像处理方法相比估算鱼苗体长准确率提高2%左右。在未来实际生产场景中,可以将该方法嵌套入鱼苗体长分离装置之中,真正的做到将科研落地,投入到实际的生产之中,减少鱼苗损伤,为未来的无人渔场奠定基础。






















我要回帖

更多关于 已知需求函数求需求弹性 的文章

 

随机推荐