在数学几种数的类型的数分类中Tessarine是什么数?

在我们进行回归分析时,当我们因变量为连续性变量时可以直接建立多元线性回归模型进行回归分析,但是当因变量为分类变量时,比如客户是否流失,收入高or低,判断身材胖or瘦等。对于这种分类型变量作为因变量,普通线性回归模型是没法建模的,这就需要用到今天要介绍的Logistic回归模型;百度百科给logistic回归定义的是一种广义的线性回归分析模型,它虽然名字里面有回归二字,但其实它更像是一种分类算法,可以说是一种分类的监督机器学习算法,而且SPSS Modeler也是把它放到分类建模模块的。模型原理:由于因变量为分类变量不能建立普通多元线性回归模型,Logistic回归将事件的发生概率作为因变量。以一个二分类变量Y为例(Y原始数据为“是”or“否”),我们给予Y新的标准,当Y为“是”则Y取值为1,为“否”时Y取值为0;我们将Y发生的概率定义为p,也就是P(Y=1|X),则Y不发生的概率为1-p,即P(Y=0|X);一般情况下定于区分的阈值为0.5,当p>=0.5时,Y取值为1,当p<0.5时,Y取值为0;这里介绍一个概念:odds(简称比值或者优势),是指事件发生的概率与事件不发生的概率的比值。也就是odds=p/(1-p)。对odds取对数后得到因变量 ln\frac{p}{1-p} ;根据因变量,我们构建线性表达式: ln\frac{p}{1-p}=\beta_{0}+\beta_{1}X_{1}+\beta_{2}X_{2}+...+\beta_{n}X_{n} 写成矩阵形式: ln\frac{p}{1-p}=\beta_{0}+\beta^{T}X 令 w=\beta^{0}+\beta^{T}X ,对上述公式进行变换,得到如下函数:p=P(Y=1|X)=\phi(w)=\frac{1}{1+e^{-w}} \phi(w) 就是logistic函数,该函数是取值范围在[0,1]的S型函数,Logistic回归分析的核心就是求解参数w;关于参数的求解,不同于普通回归模型的OLS方法,Logistic回归使用的比较广泛的是极大似然估计,具体原理这里不在详细描述。案例实践:第1步:导入数据,数据源为SPSS Modeler内置的练习数据集,其中chrurn为因变量,因此将其定义为目标角色,另外因为其为二分类变量,所以测量定义为标记(否则后续建模不能构建二项式模型),变量含义是客户是否流失,1表示流失,0表示未流失。第2步:添加Logistic回归分析节点,进行节点参数设置,由于因变量是二分类变量,所以过程选择二项式,同时由于模型中存在分类变量,在模型中要引入虚拟变量(分类输入模块下选择分类变量即可):第3步:完善参数设置后点击运行,具体输出结果及相关解释如下:表格1表格1主要说明了有1000个样本参与建模,没有缺失值。表格2表格2解释了因变量编码,其中NO表示客户未流失,YES表示客户流失。表格3表格3反映了对于分类变量定义虚拟变量的编码解释。表格4表格4是混淆矩阵(判断模型预测准确性最直观的方式),其中反映了原始数据中流失和非未流失的数据量,案例中未流失客户有726人,流失客户有274人。表格5表格5反映的是模型在纳入变量之前(只包含常数项时的基本信息)。表格6表格6反映了在模型纳入变量之前(仅含常数项时),各个变量的信息(包括Score检验统计量及相应p值,Score检验用于检验变量系数的显著性)。表格7表格7反映了模型的显著性检验,也就是检验整体模型中所有变量系数不同时为0,说明自变量对与因变量之间存在显著的线性关系。表格8表格8反映了模型的拟合优度检验,三个数据均反映了自变量对因变量的解释效果,其中最大似然估计值统计量(-2 Log likelihood)越小模型越好,Cox & Snell R^{2} 和Nagelkerke R^{2} 的值越大模型越好;从案例结果来看,模型拟合效果不是很理想,说明自变量对因变量的解释能力较弱,模型自变量选取存在遗漏。表格9表格9反映了模型结果的混淆矩阵,混淆矩阵是判断模型预测准确性最直观的方式,可以看到在实际未流失的客户中模型识别出其中的 91.2%,在实际流失的客户中模型识别出其中的 47.1%,模型的整体准确率为 79.1%。......表格10表格10是最核心的内容,即参数估计矩阵,因为我们选择的是逐步回归方法,所有模型结果会展示每一步,为了节省空间,我们主要看最后一步,也是最终模型的系数检验结果;表格输出每个系数的估计值以及相关检验信息。根据参数估计值,可以得出最后的表达成为:ln\frac{p}{1-p}=-0.112+0.294Ininc-0.538internet(1)-0.494voice(1)+0.017cardmon+0.947callcard(1)-0.761equip(1)-0.046employ-0.037tenure ......表格11表格11为变量的相关系数矩阵。同时我们可以根据建立的模型进行预测,在数据源节点节点导入新数据后(自变量数据),我们可以利用建立好的模型对因变量进行预测,判断基于新的自变量数据,客户是流失还是不流失。从输入数据的预测结果来看,基于输入的自变量模型预测是客户不会流失。对应不流失的概率(1-p)为76%。
爷的高考结束了……可能有遗憾,不管怎么样,总算解脱了。题图来自小猿搜题本题是2016年全国三卷的选择压轴。先简单分析:该数列仅由0和1构成,0和1的项数相等,且取出前k项,无论怎么取,0的个数总是多于或等于1的个数。考虑一头一尾的情况,则该数列的第一项必为0,第2m项即最后一项必为1。由此我们对该数列有了初步的认识。本题可视为计数问题,对于此类情况较为复杂即分类较多,标准也较多,同时所求计数的结果不太大的时候,往往利用表格、树状图等方式将其所有可能的情况一一列举出来,常常会达到出奇制胜的效果。标答用的是列举法。怎么说呢?很强,很无奈。其实,本题有着有趣的数学背景,即卡特兰数。卡特兰数源于卡特兰解决凸n+2边形的剖分时得到的数列。典型的卡特兰数问题有进出栈问题、购票找零问题、圆内连弦问题等。本题“规范01数列”的个数即为m=4的情况这个公式是怎么来的呢?我们首先来看一个更贴近生活、更易于理解的例子。电影票每张50元,如果有m+n个人排队买票其中m个人各持有50元面值的钞票一张,n个人各持有100元面值的钞票一张,而票房没有预备找零(手动滑稽)。有多少种方法可以将这m+n个人排成一列,顺序购票,使无需因找零而耽误时间?我们可以将这个问题转变为格点问题。图1如图1,在一个m×n的网格中,从左下角的原点O(0,0)出发,每次向右(表示接待的观众持有50元钞票)或向上移动(表示接待的观众持有100元钞票),最终到达P(m,n)。我们需要找到在直线y=x下方(包括边界)的路径条数。图2从反面考虑问题。设M为穿过直线y=x的从O到达P的路径组成的集合,如图2。图3如图3,利用对称将M中第一次犯规的路径关于y=x对称,然后将剩下的路径接在对称后的部分上。由于此时将一次向上移动改为向右移动因此终点由P(m,n)变为P'(m+1,n-1).此时就建立了由O到P'的路径的一个一一映射。图4这就结束啦!最后再给出一道圆内连弦的题目,也是相似的背景。如图5,圆周上有2n个点,以这些点为端点连接互不相交的n条弦,求不同连法的总数。图5发布于 2020-07-09 09:26
这篇文章大概挺水的吧,毕竟周期数列本来就不是什么很难的东西。偷偷bb一下,其实以后打算写一点比较容易看懂的、比较科普性的文章,但是有点找不到能写的内容。反正以后再说啦。一、什么是周期数列?首先,从周期函数出发:对于定义于 I 上的函数 f(x) ,若存在正实数 T ,使得对任意 x\in I ,都有 f(x+T)=f(x) ,则称 f(x) 是以 T 为周期的周期函数。所有满足条件的 T 的最小值就称为“最小正周期”。数列是特殊的函数,自变量的取值只能为正整数,因此类似地,有:对于数列 \{x_n\} ,若存在正整数 t ,使得对任意正整数 n ,都有 x_{n+t}=x_n ,则称数列 \{x_n\} 是以 t 为周期的周期数列。类似也可以定义“最小正周期”。例如,数列 \{x_n\} 的通项公式若为 x_n=(-1)^n ,则其前几项为 -1 , 1 , -1 , \cdots ,显然 2 是数列 \{x_n\} 的周期。再举个例子,若数列 \{x_n\} 满足: x_{n+1}=\frac{1+x_{n}}{1-x_{n}} ,则有x_{n+1}=\frac{1+x_{n}}{1-x_{n}}=\frac{1+\dfrac{1+x_{n-1}}{1-x_{n-1}}}{1-\dfrac{1+x_{n-1}}{1-x_{n-1}}}=-\frac{1}{x_{n-1}} ,也即 x_{n+1}=-\frac{1}{x_{n-1}} ,再根据这个式子,迭代可以得到 x_{n+1}=-\frac{1}{x_{n-1}}=x_{n-3} ,因此 4 是数列 \{x_n\} 的周期。二、什么东西具有周期性?提到“周期性”,脑子里就会跳出“三角函数”和“复数”。三角函数中, \sin(x+2\pi)=\sin x , \cos(x+2\pi)=\cos x ,正余弦函数都是以 2\pi 为周期的,同时 \tan(x+\pi)=\tan x ,正切函数是以 \pi 为周期的。考虑虚数单位 i ,容易发现 i^1=i , i^2=-1 , i^3=-i , i^4=1 , i^5=i ,也即其的幂具有周期性。接下来考虑模长为 1 的复数 z ,将其写成三角形式 z=\cos \theta+i\sin\theta 。根据棣莫弗定理, z^n=\cos n\theta+i\sin n\theta ,当 n 充分大时,是否可能出现 z^n=z 呢?只需考虑令 n\theta =\theta+2k\pi \Leftrightarrow n=1+\frac{2k\pi}{\theta} ,又要求 n 是整数,因此 \frac{2\pi}{\theta} 要是整数。其中,棣莫弗定理的推导,可以看下面这篇文章:例如,当 \theta=\frac{\pi}{2} 时, z=i ,此时就是上面的例子。事实上,复数的幂对应着复平面上的点的旋转,复数的幂出现周期性可以认为是,复平面上的点经过了多次旋转后与原复数所对应的点重合。这有什么用呢?接下来根据之前讲过的不动点法,来研究一下周期数列。三、周期数列的“通项公式”还是用上面的例子,若数列 \{x_n\} 满足: x_1=\frac{1}{2} , x_{n+1}=\frac{1+x_{n}}{1-x_{n}} ,由上面的过程知道它是周期数列,并且周期为 4 。计算前几项得:x_1=\frac{1}{2} , x_2=3 , x_3=-2 , x_4=-\frac{1}{3} , x_5=\frac{1}{2} , \cdots 如果硬要求它的通项公式呢?考虑方程 x=\frac{1+x}{1-x} ,整理得到 x^2+1=0 ,也即该数列在实数范围内没有不动点。扩充到复数系后,可以得到两个不动点分别是 i 和 -i ,因此对原递推式进行变形:x_{n+1}+i=\frac{1+x_{n}}{1-x_{n}}+i=\frac{1+i+(1-i)x_n}{1-x_n}=(1-i)\cdot \frac{x_n+i}{1-x_n} ,x_{n+1}-i=\frac{1+x_{n}}{1-x_{n}}-i=\frac{1-i+(1+i)x_n}{1-x_n}=(1+i)\cdot \frac{x_n-i}{1-x_n} 。两式相除得 \frac{x_{n+1}+i}{x_{n+1}-i}=\frac{1-i}{1+i}\cdot\frac{x_{n}+i}{x_{n}-i}=(-i)\cdot\frac{x_{n}+i}{x_{n}-i} ,又 \frac{x_1+i}{x_1-i}=-\frac{3}{5}+\frac{4}{5}i ,因此 \{\frac{x_n+i}{x_n-i}\} 是首项为 -\frac{3}{5}+\frac{4}{5}i ,公比为 -i 的等比数列。累乘得 \frac{x_n+i}{x_n-i}=(-\frac{3}{5}+\frac{4}{5}i)\cdot (-i)^{n-1}=(\frac{4}{5}+\frac{3}{5}i)\cdot (-i)^n ,因此可以解得数列 \{x_n\} 的通项公式是 x_n=i\cdot \frac{(4+3i)\cdot(-i)^n-5}{(4+3i)\cdot(-i)^n+5} 。并且,虽然数列的通项公式由复数给出,但是数列的每一项都是实数。注意到 (-i)^1=-i , (-i)^2=-1 , (-i)^3=i , (-i)^4=1 , (-i)^5=-i , \cdots 因此可以直接得到 x_{n+4}=x_n ,也即数列 \{x_n\} 的周期是 4 。上面的过程虽然比较繁琐,但却在某种程度上揭示了周期数列的本质。除此之外,也可以从三角的角度,得到该数列的通项公式的另一种表达。另一方面,注意到 \tan (\theta+\frac{\pi}{4})=\frac{1+\tan \theta}{1-\tan\theta} ,令 x_n=\tan\theta_n ,则 \theta_{n+1}=\theta_n+\frac{\pi}{4} ,又 \theta_1=\arctan\frac{1}{2} ,故 \{\theta_n\} 是首项为 \arctan\frac{1}{2} ,公差为 \frac{\pi}{4} 的等差数列,累加得 \theta_n=\arctan\frac{1}{2}+\frac{\pi}{4}\cdot(n-1) ,因此 x_n=\tan(\arctan\frac{1}{2}-\frac{\pi}{4}+\frac{\pi}{4}\cdot n) 。这时候,注意到 f(x)=\tan x 以 \pi 为周期,故 \{x_n\} 以 4 为周期。不得不说,三角和复数真的不分家。

我要回帖

更多关于 SS在统计学中代表什么 的文章

 

随机推荐