独立随机变量两两独立和相互独立的线性组合也是独立的吗


1. 随机变量的数学期望

5)多元正态分布的性质

设离散型随机变量X的分布律为:,若级数绝对收敛,则称级数的值为随机变量X的数学期望,记为E(X),即:

可以理解为“加权平均”中的权重,数学期望简称期望,又叫均值。

设连续型随机变量X的概率密度函数为f(x),若积分绝对收敛(即),则称积分的值为随机变量X的数学期望,即:

2)参数为p的几何分布的期望为1/p

2. 随机变量函数的数学期望

设Y是随机变量X的函数:Y=g(X),X是离散型随机变量,他的分布律为,若绝对收敛,则.

设Y为随机变量X的函数:Y=g(X),X是连续型随机变量,他的概率密度函数为f(x),若绝对收敛,则.

定理的重要意义在于我们求E(Y)时,不必求出Y的分布律或概率密度函数,而只要利用X的分布律或概率密度函数以及Y与X之间的关系就行了。

该定理也可以推广到两个或两个以上随机变量的函数的情况。

设Z是随机变量X,Y的函数:Z=h(X,Y),若二元离散型随机变量(X,Y)的分布律为:,则

设Z是随机变量X,Y的函数:Z=h(X,Y),若二元连续型随机变量(X,Y)的概率密度函数为f(x,y)则.特别地,,.

4)  设X,Y是相互独立的两个随机变量,则有:,可以推广到任意有限个相互独立的随机变量之积的情况:

将X分解成数个随机变量之和,然后利用随机变量和的数学期望等于随机变量数学期望之和来求。

4. 方差定义和计算公式

随机变量X的均值/期望:E(X)

X对于均值的离差:X-E(X)

反应随机变量波动性可以用方差:

设X是一个随机变量,若存在,称其为X的方差,记作D(X)或Var(X),即:

把记作,称为X的标准差或均方差。

D(X)和刻画了X取值的波动性, 是衡量X取值分散程度的数字特征.若D(X)较小,则X取值比较集中;反之,若D(X)较大,则说明X取值比较分散。是与随机变量X具有相同量纲的量。

对于离散型随机变量X,其分布律为,则.

对于连续型随机变量X,其概率密度函数为f(x),则

利用数学期望的性质,可得方差的计算公式:

(a_iW_i)的近似分布,本文选用cX~2(d)+e的形式作为其近似分布,并通过模拟计算检验效果。

支持CAJ、PDF文件格式,仅支持PDF格式


魏思博;;[J];重庆科技学院学报(社会科学版);2011年15期
武东;张青;汤银才;;[J];通化师范学院学报;2011年06期
胡劲松;王玉兰;;[J];东北师大学报(自然科学版);2011年03期
中国重要会议论文全文数据库
朱孟楠;严佳佳;;[A];第三届(2008)中国管理学年会论文集[C];2008年
余金生;朱裕生;王天池;;[A];中国地质科学院矿床地质研究所文集(17)[C];1986年
刘兆君;;[A];第八届中国不确定系统年会论文集[C];2010年
中国博士学位论文全文数据库
中国硕士学位论文全文数据库
李宇红;[D];首都经济贸易大学;2007年
李磊;[D];西安电子科技大学;2012年

标量(scalar):一个标量就是一个单独的数。介绍时会明确是那种类型,例如:s ∈ R,n ∈ N算法

向量(vector):一个向量是一列数,这些数是有序排列的,经过索引能够肯定每一个单独的数。例如:向量x的第一个元素是x1。数组

会注明存储在向量中的元素是什么类型的。例如:若是元素都属于R,而且该向量有n个元素,那么向量属于实数集R的n次笛卡尔乘积构成的集合。记做Rn网络

当须要明确表示向量中的元素时,将元素排列成一个方括号包围的纵列数据结构

能够把向量看作空间中的点,每一个元素是不一样坐标轴上的坐标。有时咱们须要索引向量中的一些元素。这种状况下,咱们定义一个包含这些元素索引的集合,而后将集合写在脚标处。好比指定x一、x3。定义集合S={1,3},而后写做xs。用符号表示集合的补集中的索引。好比x_1表示x中除x1外的全部元素,x_s表示x中除x一、x3外全部元素构成的向量。框架

实数:有理数和无理数的总称。有理数:整数(正负整数和0)和分数的统称。无理数:无线不循环小数,小数点后面有多个,且不会循环机器学习

矩阵(matrix):是一个二维数组,其中的每个元素由两个索引所肯定。一般会赋予矩阵粗体的大写变量名称。好比:A函数

若是一个实数矩阵高度为m,宽度为n,那么说A∈Rm*n工具

在表示矩阵中的元素时,一般以不加粗的斜体形式使用其名称,索引用逗号间隔。好比:A1,1表示A左上的元素,Am,n表示A右下的元素。经过 : 先后表示水平坐标或垂直坐标。好比,Ai,:表示A中垂直坐标i上的一横排元素,A:,i表示A的第i列。性能

当须要明确表示矩阵中的元素时,将他们写在用方括号包括起来的数组中

有时须要矩阵值表达式的索引,而不是单个元素。咱们在表达式后面接下标,但没必要将矩阵的变量名称小写化。好比f(A)i,j表示函数f做用在A输出上的矩阵的第i行第j列元素。

张量(tensor):某些状况下,咱们会讨论坐标超过两维的数组。一个数组中的元素分布在若干维坐标的规则网络中,称之为张量。使用A来表示,张量A中坐标为(i,j,k)记做Ai,j,k

转置(transpose):矩阵的重要操做之一,矩阵的转置是以对角线为轴的镜像,这条左上角到右下角的对角线被称为主对角线(main diagonal)。将矩阵A的转置表示为AT,定义以下

向量能够看做只有一列的矩阵,向量的转置能够看做只有一行的矩阵。经过将向量元素做为行矩阵写在文本行中,而后使用转置操做将其变为标准的列向量。好比:x=[x1,x2,x3]T

标量能够看做只有一个元素的矩阵,所以标量的转置等于它自己,a = aT

只要矩阵的形状同样,能够把两个矩阵相加。两个矩阵相加是指对应位置的元素相加,好比C=A+B,其中Ci,j = Ai,j + Bi,j

标量和矩阵相乘,或者是和矩阵相加,咱们只须要将其与矩阵的每一个元素相乘或相加。好比D=a*B+c,其中Di,j = a*Bi,j+c

深度学习中,也使用一些不那么常规的符号。容许矩阵和向量相加,产生另外一个矩阵:C = A + B,其中Ci,j = Ai,j + bj。换言之,向量b和矩阵A的每一行相加。这个简写方法使咱们无须在加法操做前定义一个将向量b复制到每一行而生成的矩阵。这种隐式地复制向量b到不少位置的方式,称为广播(broadcasting)

矩阵乘法是矩阵运算中最重要的操做之一。两个矩阵A和B的矩阵乘积是第三个矩阵C

矩阵乘积(matrix product):矩阵A的列数必须和矩阵B的行数相等。若是A的形状是m*n,B的形状是n*p,那么矩阵C的形状是m*p。能够经过并列放置以书写矩阵乘积

∑ 西格玛,总和符号。例如∑Pi 其中i=1,2, 那么就是求P1+P2的总和。∑下面的数字表示从几开始求和,上面的数字表示求和到几截止。

须要注意的是,两个矩阵的标准乘积不是指两个矩阵中对应元素的乘积。

两个维数相同的向量x和y的点积(dot product),能够看作矩阵乘积xTy。能够把矩阵乘积C=AB中计算Ci,j的步骤看做A的第i行和B的第j列之间的点积。

点积:接受在实数R上的两个并返回一个实数值的

使用 并把(纵列)向量看成n×1  ,点积还能够写为:

矩阵乘积运算有许多有用的性质,好比服从分配律

不一样于标量乘积,矩阵乘积并不知足交换律(AB!=BA)

而后两个向量的点积知足交换律 xTy = yTx

矩阵乘积的转置有着简单的形式

利用两个向量点击的结果是标量、标量转置是自身的事实,咱们能够证实

如今有了足够多的线性代数符号,能够表达下列线性方程组

其中A∈Rm*n是一个已知矩阵,b∈Rm是一个已知向量,x∈Rn是一个要求解的未知向量。向量x的每个元素xi都是未知的。矩阵A的每一行和b中对应的元素构成一个约束。

矩阵逆(matrix inversion):对于大多数矩阵A,能经过矩阵逆解析地求解式。为了描述矩阵逆,首先须要定义单位矩阵的概念。

单位矩阵(identity matrix):任意向量和单位矩阵相乘,都不会改变。将保持n维向量不变的单位矩阵记做In

单位矩阵的结构很简单:全部沿主对角线的元素都是1,而其余位置的全部元素都是0,

矩阵A的矩阵逆记做A-1,其定义的矩阵知足以下条件:

这取决于咱们可否找到一个逆矩阵A-1,当逆矩阵存在时,有几种不一样的算法都能找到它的闭解形式。

理论上相同的逆矩阵能够用于屡次求解不一样向量b的方程,然而逆矩阵主要做为理论工具使用,并不会在大多数软件应用程序中使用。由于逆矩阵在数字计算机上只能表现出有限的精度,有效使用向量b的算法一般能够获得更精确的x。

若是逆矩阵存在,那么确定对每个向量b刚好存在一个解。可是对方程组而言,对于向量b的某些值,有可能不存在解,或者存在无限多个解。存在多于一个解,可是少于无限多个解的状况是不可能发生的,由于若是x和y都是某方程组的解

则上方表达式也是该方程组的解。

为了分析方程有多少解,能够将A的列向量看作从原点(origin)出发的不一样方向,肯定有多少种方程能够达到b。这个观点下,向量x中的每一个元素表示咱们应该沿着这些方向走多远,即xi表示咱们须要沿第i向量的方向走多远

通常而言,这种操做称为线性组合(linear combination),形式上一组向量的线性组合是指每一个向量乘以对应标量系数以后的和,即

一组向量的生成子空间(span)是原始向量线性组合所能抵达的点的集合。

肯定Ax=b是否有解,至关于肯定向量b是否在A列向量的生成子空间中。这个特殊的生成子空间被称为A的列空间(column space)或者A的值域(range)

为了使方程Ax=b对于任意向量b∈Rm都存在解,咱们要求A列空间构成整个Rm。若是Rm中的某个点不在A的列空间中,那么该点对应的b会使得该方程没有解。矩阵A的列空间是整个Rm的要求,意味着A至少有m列,即n>=m。不然A列空间的维数会小于m。

例如假设A是一个3*2的矩阵。目标b是3维的,可是x只有2维。因此不管如何修改x的值,也只能描绘出R3空间中的二维平面。当且仅当向量b在该二维平面中时,该方程有解。

不等式n>=m仅是方程对每一点都有解的必要条件。这不是一个充分条件,由于有些列向量多是冗余的。假设有一个R2*2中的矩阵,它的两个列向量是相同的。那么它的列空间和它的一个列向量做为矩阵的列空间是同样的。虽然该矩阵有2列,可是它的列空间仍然只是一条线,不能覆盖整个R2空间

这种冗余称为线性相关(linear dependence)。若是一组向量中任意一个向量都不能表示成其余向量的线性组合,那么这组向量称为线性无关(linearly independent)。若是某个向量是一组向量中某些向量的线性组合,那么咱们将这个向量加入这组向量后不会增长这组向量的生成子空间。若是一个矩阵的列空间涵盖整个Rm,那么该矩阵必须包含至少一组m个线性无关的向量。对于每个向量b的取值都有解的充分必要条件。值得注意的是,这个条件是说该向量集刚好有m个线性无关的列向量,而不是至少m个。不存在一个m维向量的集合具备多于m个彼此线性不相关的列向量,可是一个有多于m个列向量的矩阵有可能拥有不止一个大小为m的线性无关向量集。

要想使矩阵可逆,还须要保证对于每个b值至多有一个解。为此须要确保该矩阵至多有m个列向量。

意味着该矩阵必须是一个方阵(square),即m=n,而且全部列向量都是线性无关的。一个列向量线性相关的方阵被称为奇异的(singular)

若是矩阵A不是一个方阵或者是一个奇异的方阵,该方程仍然可能有解。可是咱们不能使用矩阵逆去求解。

有时咱们须要衡量一个向量的大小。在机器学习中,常用称为范数(norm)的函数来衡量向量大小。

范数是将向量映射到非负值的函数。直观上来讲,向量x的范数衡量从原点到点x的距离。

范数是知足下列性质的任意函数:

当p=2时,L2范数称为欧几里得范数(Euclildean norm)。表示从原点出发到向量x肯定的点的欧几里得距离。L2范数在机器学习中出现的十分频繁,常常简化表示为||x||,略去了下标2。平方L2范数也常常用来衡量向量的大小,能够简单地经过点积xTx计算。

平方L2范数在数学和计算上都比L2范数自己更方便。平方L2范数对x中每一个元素的导数只取决于对应的元素,而L2范数对每一个元素的导数和整个向量相关。可是在不少状况下,平方L2范数也不受欢迎,由于它在原点附近增加十分缓慢。在某些机器学习应用中区分刚好是零的元素和非零但值很小的元素是很重要的。这些状况下,转而使用在各个位置斜率相同,同时保持简单的数学形式的函数L1范数

当机器学习问题中零和非零元素之间的差别很是重要时,一般会使用L1范数。每当x中某个元素从0增长∈,对应的L1范数也会增长∈

有时候咱们会统计向量中非零元素的个数来衡量向量的大小。向量的非零元素的数目不是范数,由于对向量缩放a倍不会改变该向量非零元素的数目。所以L1范数常常做为非零元素数目的替代函数。

另一个常常在机器学习中出现的范数是L∞范数,也称为最大范数(max norm)。这个范数表示向量中具备最大幅值的元素的绝对值

有时候我么可能也但愿衡量矩阵的大小。在深度学习中,最多见的作法是使用Frobenius范数,即

其相似于向量L2的范数。

两个向量的点积可使用范数来表示,具体以下

对角矩阵(diagonal matrix),只在主对角线上函数非零元素,其余位置都是零。

形式上,矩阵D是对角矩阵,当且仅当对于全部的 i != j,Di,j = 0。

单位矩阵就是对角矩阵之一,其对角元素所有是1.使用diag(v)表示对角元素由向量v中元素给定的一个对角方阵。对角矩阵收到关注的部分缘由是对角矩阵的乘法计算很高效。计算乘法diag(v)x,咱们只须要将x中的每一个元素xi放大vi倍。换言之,diag(u)x = u ⊙ x。计算对角方阵的逆矩阵也很高效。对角方阵的逆矩阵存在,当且仅当对角元素都是非零值,这种状况下

不少状况下,能够根据任意矩阵导出一些通用的机器学习算法,但经过一些矩阵限制对角矩阵,咱们能够获得计算代价较低的算法。

并不是全部的对角矩阵都是方阵,长方形的矩阵也有多是对角矩阵。非方阵的对角矩阵没有逆矩阵,但咱们仍然能够高效的计算它们的乘法。对于一个长方形对角矩阵D而言,乘法Dx会涉及x中每一个元素的缩放,若是D是瘦长矩阵,那么在缩放后的末尾添加一些零。若是D是胖宽型矩阵,那么在缩放后去掉最后一些元素。

对称(symmetric)矩阵是转置和本身相等的矩阵。A = AT

当某些不依赖参数顺序的双参数函数生成元素时,对称矩阵常常会出现。例如,若是A是一个距离度量矩阵,Ai,j表示点i到点j的距离,那么Ai,j = Aj,i,由于距离函数是对称的。

若是x T y = 0,那么向量x和向量y互相正交(orthogonal)。若是两个向量都有非零范数,那么这两个向量之间的夹角是90度。在Rn中,至多有n个范数非零向量互相正交。若是这些向量不但互相正交,并且范数都为1,那么咱们称它们是标准正交(orthonormal)

正交矩阵(orthogonal matrix)指行向量和列向量是分别标准正交的方阵,即

正交矩阵受到关注是由于求逆计算代价小。咱们须要注意正交矩阵的定义。违反直觉的是,正交矩阵的行向量不只是正交的,仍是标准正交的。对于行向量或列向量互相正交但不是标准正交的矩阵,没有对应的专有术语。

许多数学对象能够经过将它们分解成多个组成部分或者找到它们的一些属性来更好地理解。

例如:整数能够分解为质因数,能够用十进制或者二进制表示整数12。

能够经过分解质因数来发现整数的一些内在性质,也能够经过分解矩阵来发现矩阵表示成数组元素时不明显的函数性质。

特征分解(eigendecomposition)是使用最广的矩阵分解之一,即咱们将矩阵分解成一组特征向量和特征值。

方阵A的特征向量(eigenvector)是指与A相乘后至关于该向量进行缩放的非零向量v:

其中标量λ称为这个特征向量对应的特征值(eigenvalue)。也能够定义左特征向量(left eigenvector)

若是v是A的特征向量,那么任何缩放后的向量su(s ∈ R,s != 0) 也是A的特征向量。所以,s v 和v相同的特征值。

假设矩阵A有n个线性无关的特征向量,对应着特征值

咱们将特征向量链接成一个矩阵,使得每一列是一个特征向量:

能够将特征值链接成一个向量

将矩阵分解(decompose)成特征值和特征向量,能够帮助分析矩阵的特定性质,就像质因数分解有助咱们理解整数。

每一个实对称矩阵均可以分解成实特征向量和实特征值

其中Q是A的特征向量组成的正交矩阵,^是对角矩阵。特征值^i,i 对应的特征向量是矩阵Q的第i列,记做Q:,i。由于Q是正交矩阵,咱们能够将A看作沿反向v(i)延展λi倍的空间

任意一个实对称矩阵A都有特征分解,可是特征分解可能并不惟一。若是两个或多个特征向量拥有相同的特征值,那么有这些特征向量产生的生成子空间中,任意一组正交向量都是该特征值对应的特征向量。

所以能够等价地从这些特征向量中构成Q做为替代。

矩阵是奇异的,仅当含有零特征值。实对称矩阵的特征分解也能够用于优化二次方程f(x) = x T Ax,其中限制||x||2 = 1。当x等于A的某个特征向量时,f将返回对应的特征值。函数f的最大值就是最大特征值,最小值是最小特征值。

将矩阵分解成特征向量和特征值还有另外一种分解矩阵的方法,称为奇异值分解(singular value decomposition,SVD),将矩阵分解为奇异向量奇异值。经过奇异值分解,咱们会获得一些与特征分解相同类型的信息。

然而奇异值分解有更普遍的应用,每一个实数矩阵都有一个奇异值分解,但不必定都有特征分解。非方阵的矩阵没有特征分解,这时只能使用奇异值分解。

奇异值分解能够将矩阵A分解成三个矩阵的乘积

假设A是一个m*n的矩阵,那么U是一个m*m的矩阵,D是一个m*n的矩阵,V是一个n*n矩阵

这些矩阵中的每个经定义后都拥有特殊的结构。矩阵U和V都定义为正交矩阵,而矩阵D定义为对角矩阵。注意矩阵D不必定是方阵。

对角矩阵D对角线上的元素称为矩阵A的奇异值。矩阵U的列向量称为左奇异向量,矩阵V的列向量称为右奇异向量

能够用于A相关的特征分解去解释A的奇异值分解。

A的左奇异向量是AAT的特征向量。

A的右奇异向量是ATA的特征向量。

A的非零奇异值是ATA特征值的平方根,同时也是AAT特征值的平方根。

计算伪逆的实际算法没有基于这个定义,而是使用下面的公式

其中矩阵U、D和V是矩阵A奇异值分解后获得的矩阵。对角矩阵D的伪逆D+是其非零元素取倒数以后再转置获得的。

当矩阵A的列数多余行数时,使用伪逆求解线性方程是众多可能解法中的一种。x = A+y是方程全部可行解中欧几里得范数||x||2最小的一个。

当矩阵A的行数多余列数时,可能没有解。在这种状况下,经过伪逆获得的x使得Ax和y的欧几里得距离||Ax-y||2最小。

迹运算返回的是矩阵对角元素的和

迹运算由于不少缘由而有用。若不使用求和符号,有些矩阵运算很难描述,而经过矩阵乘法和迹运算符号能够清楚地表示。例如,迹运算提供了另外一种描述矩阵Frobenius范数的方式

用迹运算表示表达式,可使用不少有用的等式巧妙地处理表达式。迹运算在转置运算下是不变的。

多个矩阵相乘获得的方阵的迹,和将这些矩阵中的最后一个挪到最前面以后相乘的迹是相同的。固然须要考虑挪动以后矩阵乘积依然定义良好

即便循环置换后矩阵乘积获得的矩阵形状变了,迹运算的结果依然不变。假设矩阵A∈Rm*n,矩阵B∈Rn*m,能够获得

几率用于表示不肯定性声明的数学框架,不只提供了量化不肯定性的方法,也提供了用于导出新的不肯定性声明的公理。

在人工智能领域,几率论主要有两种用途:几率法则告诉AI系统如何推理,据此咱们设计一些算法来计算或者估算由几率论导出的表达式;能够用几率和统计从理论上分析咱们提出的AI系统的行为

由于机器学习一般必须处理不肯定量,有时也可能须要处理随机(非肯定性)量。

几乎全部活动都须要一些不肯定性存在的状况下进行推理的能力。

不肯定性有3种可能的来源:

1. 被建模系统内在的随机性 。例如:量子力学的解释,都将亚原子粒子的动力学描述为几率的。

2. 不彻底观测。即便是肯定的系统,当咱们不能观测到全部驱动系统行为的变量时该系统也会呈现随机性。

3. 不彻底建模。当咱们使用一些必须舍弃某些观测信息的模型时,舍弃的信息会将致使模型的预测出现不肯定性。

尽管咱们须要一种用以对不肯定性进行表示和推理的方法,可是几率论并不能明显提供咱们在人工智能领域须要的全部工具。

当咱们说一个结果发生的几率为p,这意味着若是咱们反复实验无限次,有p的比例可能会致使这样的结果。好比不停地抽扑克牌。

这种推理并不当即适用于不可重复的命题,若是一个医生诊断了病人,并说病人患病概率为40%,这意味着很是不一样的事情。在这个例子中,咱们用几率来表示一种信任度,其中1表示很是确定,0表示确定没有。

前面那种几率直接与事件发生的频率相联系,被称为频率派几率,然后者涉及肯定性水平,被称为叶贝斯几率

关于不肯定性的常识推理,若是咱们已经列出若干条指望它具备的性质,那么知足这些性质的惟一一种方法就是将贝叶斯几率和频率派几率视为等同的。

几率能够被看作用于处理了不肯定性的逻辑扩展。逻辑提供了一套形式化的规则,能够在给定某些命题是真或假的假设下,判断另一些命题是真的仍是假的。几率论提供了一套形式化的规则,能够在给定一些命题的似而后,计算其余命题为真的似然

随机变量是能够随机地取不一样值的变量。一般用无格式字体中的小写字母来表示随机变量自己

用手写体中的小写字母来表示随机变量可以取到的值。必须伴随着一个几率分布来指定每一个状态的可能性。

随机变量能够是离散的或者连续的。离散随机变量拥有有限或者可能无限多的状态。

这些状态不必定非要是整数,也可能只是一些被命名的状态而没有数值。连续随机变量伴随着实数值。

几率分布用来描述随机变量或一簇随机变量在再每一个可能取到的状态的可能性大小。

咱们描述几率分布的方式取决于随机变量是离散的仍是连续的。

离散型变量几率分布能够用几率质量函数(PMF) 来描述。一般用大写字母P来表示几率质量函数。

几率质量函数将随机变量可以去取得的每一个状态映射到随机变量取得该状态的几率。x=x的几率用P(x)来表示,几率为1表示x=x是肯定的,几率为0表示x=x是不可能发生的。

几率质量函数能够同时做用与多个随机变量,多个变量的几率分布被称为联合几率分布,可简写为P(x,y)

若是一个函数P是随机变量x的几率质量函数,必须知足如下几个条件

1. P的定义域必须是x全部可能状态的集合

2. 不可能发生的事件几率为0,而且不存在比这几率更低的状态。可以确保必定发生的事件几率为1,并且不存在比这几率更高的状态

3. 把这条性质称为归一化的,若是没有这条性质,当计算几率时,可能会获得大于1的几率

考虑一个离散型随机变量x有k个不一样的状态。假设x是均匀分布的(将它每一个状态视为等可能的),经过PMF设为对于全部的i都成立,

能够看出知足上述称为几率质量函数的条件。由于k是一个正整数,因此1/k是正的。也能够看出

所以分布知足归一化条件

连续型变量和几率密度函数

当研究的对象是连续型随机变量时,用几率密度函数(PDF)而不是几率质量函数来描述它的几率分布。若是一个函数p是几率密度函数,必须知足下面这几个条件

几率密度函数P(x)并无直接对特定的状态给出几率,相对的,

能够对几率密度函数求积分来得到点集的真实几率质量。特别是,x落在集合S中的几率能够经过P(x)对这个集合求积分来获得。在单变量的例子中,x落在区间[a,b]的几率是

假设离散型随机变量x和y,而且咱们知道P(x,y)能够依据下面的求和法则来计算P(x)

边缘几率的名称来源于手算边缘几率的计算过程。当P(x,y)的每一个值被写在由每行表示不一样的x值、每列表示不一样的y值造成的网格中时,对网格中的每行求和是很天然的事情,而后将求和的结果P(x)写在每行右边的纸的边缘处

对于连续型变量,须要用积分替代求和

不少状况下,咱们感兴趣的是某个事件在给定其余事件发生时出现的几率。这种几率叫作条件几率,将给定x=x,y=y发生的条件几率记为P(y=y | x=x)。这个条件几率能够经过下面的公式计算:

条件几率只在P(x=x)>0时有定义。不能计算给定在永远不会发生的事件上的条件几率。

这里须要注意的是,不要把条件几率和计算当采用某个动做后会发生什么相混淆。假定某我的说德语,那么他是德国人的条件几率是很是高的,可是若是随机选择的一我的会说德语,他的国籍不会所以而改变。计算一个行动的后果被称为干预查询。干预查询属于因果模型的范畴

任何多维随机变量的联合几率分布,均可以分解成只有一个变量的条件几率相乘的形式:

这个规则被称为几率的链式法则或者乘法法则。它能够直接从条件几率的定义中获得。

例如:使用两次定义能够获得

两个随机变量x和y,若是它们的几率分布能够表示成两个因子的乘积形式,而且一个因子只包含x,另外一个因子只包含y,就称这两个随机变量是相互独立的。

若是关于x和y的条件几率分布对于z的每个值均可能写成乘积的形式,那么这两个随机变量x和y在给定随机变量z时是条件独立的

咱们能够采用一种简化形式来表示独立性和条件独立性:x ⊥ y 表示x和y相互独立,x ⊥ y | z 表示x和y在给定z时条件独立。

方差:实际值与指望值之差平方的平均值。用来度量随机变量和其数学指望之间的偏离程度

协方差:用于衡量两个变量的整体偏差。同时变大说明两个变量是同向变化,协方差就是正的。反向变化就是负的。若是有X,Y两个变量,X值与其均值之差乘以Y值与其均值之差,获得一个乘积,对乘积求和并求出均值,即为协方差。

函数f(x)关于某分布P(x)的指望或者指望值是指,当x由P产生,f做用于x时,f(x)的平均值。对于离散型随机变量,能够经过求和获得

对于连续型随机变量,能够经过求积分获得

当几率分布在上下文中指明时,能够只写出指望做用的随机变量的名称来进行简化,例如 Ex[f(x)]。若是指望做用的随机变量也很明确,能够彻底不写脚标,就像E[f(x)]。默认假设E[.] 表示对方括号内的全部随机变量的值求平均。相似地,当没有歧义时,咱们还能够省略方括号。指望是线性的,例如

其中a 和 β不依赖于x

方差 衡量的是当咱们对x依据它的几率分布进行采样时,随机变量x的函数值会呈现多大的差别

当方差很小时,f(x)的值造成的簇比较接近它们的指望值。方差的平方根被称为标准差

协方差 在某种意义上给出了两个变量线性相关性的强度以及这些变量的尺度

协方差的绝对值若是很大,则意味着变量值变化很大,而且它们同时距离各自的均值很远。若是协方差是正的,那么两个变量都倾向于同时取得相对较大的值。若是协方差是负的,那么其中一个变量倾向于取得相对较大的值的同时,另外一个变量倾向于取得相对较小的值,反之亦然。其余的衡量指标如相关系数将每一个变量的贡献归一化,为了只衡量变量的相关性而不受各个变量尺度大小的影响

协方差和相关性是有联系的,但其实是不一样的概念。它们是有联系的,若是两个变量相互独立,那么它们的协方差为零;若是两个变量的协方差不为零,那么它们必定是相关的。然而,独立性又是和协方差彻底不一样的性质。两个变量若是协方差为零,它们之间必定没有线性关系。独立性是比零协方差的要求更强,由于独立性还排除了非线性的关系。两个变量相互依赖,可是具备零协方差是可能的。例如,假设咱们首先从区间[-1,1] 上的均匀分布中采样出一个实数x,而后对一个随机变量s进行采集。s以1/2的几率值为1,不然为-1.咱们能够经过令y=sx来生成一个随机变量y。显然,x和y不是相互独立的,由于x彻底决定了y的尺度。然而,Cov(x,y) = 0 

随机向量x∈Rn的协方差矩阵是一个n*n的矩阵,而且知足

协方差矩阵的对角元是方差

许多简单的几率分布在机器学习的众多领域中都是有用的。

Bernoulli分布,是单个二值随机变量的分布。由单个参数Φ∈[0,1] 控制,Φ 给出了随机变量等于1的几率。具备以下的一些性质

Multinoulli分布或者范畴分布是指在具备k个不一样状态的单个离散型随机变量上的分布,其中k是一个有限值。Multinoulli分布由向量p∈[0,1] k-1 参数化,其中每个份量pi表示第i个状态的几率。最后的第k个状态的几率能够经过1-1Tp给出。

注意咱们必须限制1Tp<=1.Multionoulli分布常常用来表示对象分类的分布,因此咱们不多假设状态1具备数值1之类。所以,咱们一般不须要去计算Multionoulli分布的随机变量的指望和方差。

Bernoulli分布和Multinoulli分布足够用来描述在它们领域内的任意分布。可以描述这些分布,不是由于它们特别强大,而是由于它们的领域很简单。它们能够对那些可以将全部的状态进行枚举的离散性随机变量进行建模。当处理的是连续型随机变量时,会有不可数无限多的状态,因此任何经过少许参数描述的几率分布都必须在分布上加以严格的限制。

实数上最经常使用的分布就是正态分布,也称为高斯分布

下图画出了正态分布的几率密度函数

正态分布由两个参数控制,μ∈R,和σ∈(0,∞)参数μ给出了中心峰值的坐标,这也是分布的均值:E[x] = μ,分布的标准差用σ表示,方差用σ2表示。

当咱们要对几率密度函数求值时,须要对σ平方而且取倒数。当咱们须要常常对不一样参数下的几率密度函数求值时,一种更高效的参数化分布的方式是使用参数β∈(0,∞)来控制分布的精度或方差的倒数

采用正态分布在不少应用中都是一个明智的选择。当咱们因为缺少关于某个实数上分布的先验知识而不知道该选择怎样的形式时,正态分布是默认的比较好的选择。由两个缘由

1. 咱们想要建模的不少分布的真实状况是比较接近正态分布的。中心极限定理说明不少独立随机变量的和近似服从正态分布。这意味着在实际中,不少复杂系统均可以被成功地建模成正态分布的噪声,即便系统能够被分解成一些更结构化的部分。

2. 具备相同方差的全部可能的几率分布中,正态分布在实数上具备最大的不肯定性。咱们能够认为正态分布是对模型加入的先验知识量最少的分布。充分利用和证实这个想法须要更多的数学工具。

正态分布能够推广到Rn空间,这种状况下被称为多维正态分布。它的参数是一个正定对称矩阵∑

参数μ 仍然表示分布的均值,只不过如今是向量值。参数∑给出了分布的协方差矩阵。和单变量的状况相似,当咱们但愿对不少不一样参数下的几率密度函数屡次求值时,协方差矩阵并非一个很高效的参数化分布的方式,觉得内对几率密度函数求值时须要对∑求逆。可使用一个精度矩阵β进行替代

咱们经常把协方差矩阵固定成一个对角阵。更简单的版本是各向同性高斯分布,它的协方差矩阵是一个标量乘以单位阵。

深度学习中,须要一个在x=0点处取得边界点的分布。为了实现这一目的,可使用指数分布

指数分布用指示函数1x>=0来使得当x取负值时的几率为零

一个联系紧密的几率分布是Laplace分布,容许咱们在任意一点μ处设置几率质量的峰值

Dirac分布和经验分布

但愿几率分布中的全部质量都集中在一点上,能够经过Dirac delta函数定义几率密度函数来实现

Dirac delta函数被定义成在除了0之外的全部点的值都为0,可是积分为1.它是一种不一样类型的数学对象,被称为广义函数,广义函数是依据积分性质定义的数学对象。能够把Dirac delta函数想成一系列函数的极限点,这一系列函数把除0之外的全部点的几率密度越变越小。

Dirac分布常常做为经验分布的一个组成部分出现

经验分布能够被定义成一个Multinoulli分布,对于每个可能的输入,其几率能够简单地设为在训练集上那个输入值的经验频率

当咱们在训练集上训练模型时,能够认为从这个训练集上获得的经验分布指明了采样来源的分布。它是训练数据的似然最大的那个几率密度函数

咱们常常会须要在已知P(y|x)时计算P(x|y)。幸运的是,若是还直到P(x) 能够用贝叶斯规则来实现这一目的

一般使用P(y)=∑xP(y|x)P(x) 来计算,因此咱们并不须要事先直到P(y)的信息。

贝叶斯规则能够从条件几率的定义直接推导得出

主要研究对一个信号包含信息多少进行量化。

机器学习中,能够把信息论应用于连续型变量,某些信息长度的解释再也不适用。

基本想法:一个不太可能的事件竟然发生了,要比一个很是可能的事件发生,提供更多的信息。

好比“今天早上太阳升起”信息量不多,但“今天早上有日食”,信息量就很丰富。

经过这种基本想法来量化信息

1. 很是可能发生的事件信息量要比较少,而且极端状况下,确保可以发生的事件应该没有信息量

2. 较不可能发生的事件具备更高的信息量

3. 独立事件应具备增量的信息。例:硬币两次正面向上传递的信息量,应该是一次硬币正面向上的两倍

为知足上述3个性质,定义一个事件x=x的自信息(self-information)为

用log来表示天然对数,其底数为e。所以I(x)的单位是奈特(nats)。一奈特是以1/e的几率观测到一个事件时得到的信息量。其余的材料中使用底数为2的对数,单位是比特(bit)或者香农(shannons)。经过比特度量的信息只是经过奈特度量信息的常数倍。

:指乘方运算的结果。叫作n的m次幂或n的m次方。n^m叫作n的m次幂。

对数:求幂的逆运算,正如除法是乘法的倒数。若是a的x次幂等于N,那么数x叫作以a为底N的对数。记做x=logaN

经常使用对数:以10为底的对数,并记为log。

天然对数:以无理数e(e=2.71828...)为底的对数,并记为ln。

自信息只处理单个的输出。能够用香农熵(Shannon entropy)来对整个几率分布中的不肯定性总量进行量化

一个分布的香农熵是指遵循这个分布的事件所产生的指望信息总量。给出了对依据几率分布P生成的符号进行编码所需的比特数在平均意义上的下界。

接近肯定性的分布具备较低的熵;接近均匀分布的几率分布具备较高的熵。当x是连续的,香农熵被称为微分熵(differential entropy)

机器学习算法一般须要大量的数值计算。一般指经过迭代过程更新解的估计值来解决数学问题的算法,而不是经过解析过程推导出公式来提供正确解的方法。常见的操做包括优化(找到最小化或最大化函数值的参数)和线性方程组的求解。

舍入偏差会致使一些问题,若是设计时没有考虑最小化舍入偏差的累积,可能会致使算法失效。

一种极具毁灭性的舍入偏差是下溢(underflow)。当接近零的数被四舍五入为零时发生下溢。许多函数在其参数为零而不是很小的正数时才会表现出质的不一样。

另外一种数值错误形式是上溢(overflow)。当大量级的数被近似为∞或-∞时发生上溢。致使这些无限值变为非数字。

对上溢和下溢进行数值稳定的一个例子是softmax函数。经常使用于预测与Multionoulli分布相关联的几率

理论上说,所欲的输出都应该为1/n。当c量级很大时,可能不会发生。

若是c是很小的负数,exp(c)就会下溢。意味着softmax函数的分母会变成0,最后的结果是未定义的。

若是c是很大的正数时,exp(c)的上溢再次致使整个表达式未定义。

这两个困难能经过计算softmax(z)同时解决,其中z=x-maxi xi,简单的代数表示,softmax解析上的函数值不会由于从输入向量减去或加上标量而改变。减去maxixi致使exp的最大参数为0,排除了上溢的可能性。

条件数指函数相对于输入的微小变化而变化的快慢程度。输入被轻微扰动而迅速改变的函数对于科学计算来讲多是有问题的,由于输入中的舍入偏差可能致使输出的巨大变化。

考虑函数f(x)=A-1x。当A∈Rn*n具备特征值分解时,其条件数为

最大和最小特征值的模之比。当该数很大时,矩阵求逆对输入的偏差特别敏感。

敏感性是矩阵自己的固有特征,而不是矩阵求逆期间舍入偏差的结果。即便咱们乘以彻底正确的矩阵逆,病态条件的矩阵也会放大预先存在的偏差。

优化指的是改变x以最小化或最大化某个函数f(x)的任务。

一般以最小化f(x)指代大多数最优化问题。最大化能够由最小化算法最小化-f(x)来实现。

最小化或最大化的函数称为目标函数(objective function)或准则(criterion)。当咱们对其进行最小化时,把它称为代价函数(cost function)、损失函数(loss

深度学习是机器学习的一个特定分支。

学习:对于某类任务T和性能度量P,一个计算机程序被认为能够从经验E中学习是指,经过经验E改进后,它在任务T上由性能度量P衡量的性能有所提高。

学习过程自己不能算是任务,学习是咱们所谓的获取完成任务的能力。

一般机器学习任务定义为机器学习系统应该如何处理样本(example)。指咱们从某些但愿机器学习系统处理的对象或事件中收集到的已经量化的特征(feature)的集合。一般会将样本表示成一个向量x∈Rn,其中向量的每个元素xi是一个特征。

机器学习能够解决不少类型的任务

  • 分类:指定某些输入属于k类中的哪一类。学习算法一般会返回一个函数f:Rn->{1,...,k}。当y=f(x)时,模型将向量x所表明的输入分类到数字码y所表明的类别。分类任务中有一个任务是对象识别,其中输入的是图片,输出的是表示图片物体的数字码。例如识别不一样饮料,识别人脸。
  • 输入缺失分类:当输入向量的每一个度量不被保证时,分类问题将会变得更具备挑战性。为了解决分类任务,学习算法只须要定义一个从输入向量映射到输出类别的函数。当一些输入可能丢失时,学习算法必须学习一组函数,而不是单个分类函数。每一个函数对应着分类具备不一样缺失输入子集的x。使用n个输入变量,能够得到每一个可能的缺失输入集合所需的全部2n个不一样的分类函数。
  • 回归:程序须要对给定输入预测数值。学习算法须要输出函数f:Rn->R。除了返回结果的形式不同外,这类问题和分类问题是很像的。这类任务的一个示例是预测投保人的索赔金额(用于设置保险费),或者预测证券将来的价格。用在交易算法中。
  • 转录:这类任务中,机器学习系统观测一些相对非结构化表示的数据,并转录信息为离散的文本形式。例如:光学字符识别要求程序根据文本图片返回文字序列(ASCII码或Unicode码)。谷歌街景以这种方式使用深度学习处理街道编号。另外一个例子是语音识别,计算程序输入一段音波形,输出一序列音频记录中所说的字符或单词ID的编码。深度学习是现代语音识别系统的重要组成部分。
  • 机器翻译:输入是一种语言的符号序列,程序必须将其转化成另外一种语言的符号序列。适用于天然语言,如将英语译成法语。
  • 结构化输出:输出是向量或者其余包含多个值的数据结构,而且构成输出任务的输出是向量或者其余包含多个值的数据结构,而且构成输出的这些不一样元素间具备重要关系。这是一个很大的范畴,包含转录任务和翻译任务在内的不少其余任务。例如语法分析,映射天然语言句子到语法结构树,并标记树的节点为动词、名词、副词等。另外一个例子是图像的像素级分隔,将每个像素分配到特定类别。可用于标注航拍照片中的道路位置,输出结构形式不须要和输入尽量类似。
  • 异常检测:程序在一组事件或对象中筛选,并标记不正常或非典型的个体。例如信用卡欺诈检测,经过对你的购买习惯建模,信用卡公司能够检测到你的卡是否被滥用。若是窃取你的信用卡或信用卡信息,采购物品的分布一般和你的不一样。
  • 合成和采样:程序生成一些和训练数据类似的新样本。经过机器学习、合成和采样能够在应用中很是有用,能够避免大量昂贵或者乏味费时的手工工做。例如,视频游戏自动生成大型物体或风景的纹理。但愿采样或合成过程能够根据给定的输入生成一些特定类型的输出。
  • 缺失值填补:算法给定一个新样本x∈Rn,x中某些元素xi缺失。算法必须填补这些缺失值
  • 去噪:算法的输入是,干净样本x∈Rn,通过未知损坏过程后获得的损坏样本。算法根据损坏后的样本预测干净的样本,或者预测条件几率分布
  • 密度估计或几率质量函数评估:机器学习算法学习函数,其中Pmodel(x)能够解释成样本采样空间的几率密度函数或者几率质量函数。

对于评估机器学习算法的能力,必须设计其性能的定量度量。一般性能度量P是特定于系统执行的任务T而言的。

对于分类、缺失输入分类和转录任务,一般度量模型的准确率(accuracy)。准确率是指该模型输出正确结果的样本比率。也能够经过错误率(errorrate)获得相同的信息。错误率是指该模型输出错误结果的样本比率。一般把错误率称为0-1损失的指望。在一个特定的样本上,若是结果是对的,那么0-1损失是0;不然是1.对于密度估计这类任务,度量准确率,错误率或者其余类型的0-1损失是没有意义的。

使用测试集(testset)数据来评估系统性能,将其与训练机器学习系统的训练集数据分开

性能度量的选择或许看上去简单且客观,可是选择一个系统理想表现对应的性能度量一般是很难的。

在执行转录任务时,应该度量系统转录整个序列的准确率,仍是应该用一个更细粒度的指标,对序列中正确的部分元素以正面评价?设计的选择取决于应用。

机器学习算法能够分为无监督(unsupervised)算法和监督(supervised)算法。

能够被理解为在整个数据集(dataset)上获取经验。数据集是指不少样本组成的集合。有时咱们也将样本称为数据点(data point)

无监督学习算法:训练含有不少特征的数据集,而后学习出这个数据集上有用的结构性质。深度学习中,一般要学习生成数据集的整个几率分布。好比密度估计或是隐式地,好比合成或去噪。还有一些其余类型的无监督学习任务,例如聚类,将数据集分红类似样本的集合。

监督学习算法:训练含有不少特征的数据集,不过数据集中的样本都有一个标签(label)或目标(target)。学习如何根据测量结果将样本划分为不一样品种。

无监督学习设计观察随即向量x的好几个样本,试图显示或隐式地学习出几率分布p(x),或者该分布一些有意思的性质。

监督学习包含观察随机乡里那个x及其相关联的值或向量y,而后从x预测y,一般是估计p(y|x)。

监督学习源自这样一个视角,教员或老师提供目标y给机器学习系统,指导其应该作什么。无监督学习中,没有教员或老师,算法必须学会在没有指导的状况下理解数据。

在先前未观察到的输入上表现良好的能力称为泛化(generaliza-tion)

在训练集上计算一些被称为训练偏差(training error)的度量偏差,目标是下降训练偏差。

机器学习和优化不一样的地方在于,但愿泛化偏差、测试偏差很低。泛化偏差被定义为新输入的偏差指望。指望的计算基于不一样的可能输入,采自系统在现实中遇到的分布。

度量模型在训练集中分出来的测试集(test set)样本上的性能,来评估学习模型的泛化偏差

统计学习理论(statisticl learning theory)提供了一些理论。若是训练集合测试集的数据是任意收集的,那么咱们可以作的确实颇有限。若是能够对训练集和测试集数据的收集方式有些假设,那么能对算法作出改进。

训练集合测试集数据经过数据集上被称为数据生成过程(data generating process)的几率分布生成。一般会作一系列独立同分布假设(i.i.d. assumption)的假设。每一个数据集中的样本都是彼此相互独立的(independent),而且训练集合测试集是同分布的(identically distributed),采样自相同的分布。使咱们可以在单个样本的几率分布描述数据生成过程。相同的分布能够用来生成每个训练样本和每个测试样本。

测试偏差指望会大于或等于训练偏差指望。决定机器学习算法是否好的因素有两个

2. 缩小训练偏差和测试偏差的差距

这两个因素对应机器学习的两个主要挑战:欠拟合(underfitting)和过拟合(overfitting)。

欠拟合是指模型不能再训练集上得到足够低的偏差。

过拟合是指偏差和测试偏差之间的差距太大。

经过调整模型的容量(capacity),能够控制模型是否偏向于过拟合或者欠拟合。通俗来说,模型的容量是指拟合各类函数的能力。容量低的模型可能很难拟合训练集。容量高的模型可能会过拟合,由于记住了不适用于测试集的训练集性质。

控制训练算法容量的方法是选择假设空间(hypothesis space),学习算法能够选择为解决方案的函数集。

全部可能的数据生成分布上平均以后,每个分类算法在未事先观测的点上都有相同的错误率。换言之,在某种意义上,没有一个机器学习算法老是比其余的要好。可以设想的最早进的算法和简单地将全部点归为同一类的简单算法有相同的平均性能(全部可能的任务上)

意味着,机器学习研究的目标不是找一个通用学习算法或是绝对最优的学习算法,而是理解什么样的分布与人工智能获取经验的“真实世界”相关,以及什么样的学习算法在咱们关注的数据生成分布上效果最好。

能够经过两种方式控制算法的性能,一是容许使用的函数种类。二是这些函数的数量

相比于某一个学习算法,可能更偏好另外一个学习算法。意味着两个函数都是符合条件的,可是咱们更偏好其中一个。只有非偏好函数比偏好函数在训练数据集上效果明显好不少时,咱们才会考虑非偏好函数。

能够加入权重衰减(weight decay)来修改线性回归的训练标准。带权重衰减的线性回归最小化训练集上的均方偏差和正则项的和J(w),其偏好于平方L2范数较小的权重。

其中λ是提早挑选的值,控制咱们偏好小范数权重的程度。当λ=0时,没有任何偏好。越大的值偏好范数越小的权重。最小化J(w)能够看作拟合训练数据和偏好小权重范数之间的权衡。会使得解决方案的斜率较小,或是将权重放在较少的特征上。能够训练具备不一样λ值的高次多项式回归模型,来讲明如何经过权重衰减控制模型欠拟合或过拟合的趋势。

正则化一个学习函数f(x;0)的模型,能够给代价函数添加被称为正则化项(regularizer)的惩罚。

正则化指修改学习算法,使其下降泛化偏差而非训练偏差。正则化是机器学习领域的中心问题之一,只有优化可以与其重要性相提并论。

对函数的偏好是比增减假设空间的成员函数更通常地控制模型容量的方法。能够去掉假设空间中的某个函数看作对不同意这个函数的无限偏好。

点估计试图为一些感兴趣的量提供单个“最优”预测。感兴趣的量能够是单个参数,或是某些参数模型中的一个向量参数。

为了区分参数估计和真实值,习惯将参数θ的点估计表示为

定义不要求g返回一个接近真实θ的值,或者g的值域刚好是θ的容许取值范围。点估计的定义很是宽泛,给了估计量的设计者极大的灵活性。

指望做用在全部数据(从随机变量采样获得的)上,θ是用于定义数据生成分布的θ的真实值。若是bias(θm)=0,那么估计量θm被称为是无偏(unbiased),意味着E(θm)=θ。

大部分监督学习算法是基于估计几率分布p(y|x)。能够用最大似然估计找到对于有参分布族p(y|x; θ)最好的参数向量θ。

经过定义一族不一样的几率分布,能够将线性回归扩展到分类状况中。若是有两个类,类0和类1,那么只须要指定这两类之一的几率。类1的几率决定了类0的几率,由于这两个值加起来必须等于1。

用于线性回归的实数正态分布是用均值参数化的。提供这个均值的任何值都是有效的。二元变量上的分布稍微复杂些,由于它的均值必须始终在0和1之间。

解决这个问题的一种办法是使用logistic sigmoid函数将线性函数的输出压缩进区间(0,1)。能够解释为几率

这个方法被称为逻辑回归(logistic regression),该模型用于分类并不是回归

线性回归中,能够经过求解正规方程以找到最佳权重。逻辑回归会更困难些,其最佳权重没有闭解。必须最大化对数似然来搜索最优解。能够经过梯度降低算法最小化负对数似然来搜索。

肯定正确的输入和输出变量上的有参条件几率分布族,相同的策略基本上能够用于任何监督学习问题。

machine,SVM)是监督学习中最有影响力的方法之一。相似于逻辑回归,这个模型也是基于线性函数wTx+b的。不一样于逻辑回归的是,支持向量机不输出几率,只输出类别。当wTx+b为正时,支持向量机预测属于正类。当wTx+b为负时,支持向量机预测属于负类。

支持向量机的一个重要创新是核技巧(kernel trick)。核技巧观察到许多机器学习算法均可以写成样本间点积的形式。例如,支持向量机中的线性函数能够重写为

其中,x(i)是训练样本,α是系数向量。学习算法重写为这种形式容许咱们将x替换为特征函数的输出,点积替换为被称为核函数(kernel function)的函数。

使用核估计替换点积以后,可使用以下函数进行预测

核技巧十分强大有两个缘由:

其一,使咱们可以使用保证有效收敛的凸优化技术来学习非线性模型(关于x的函数)。这是可能的,由于咱们能够认为Φ是固定的,仅优化α,即优化算法能够将决策函数视为不一样空间中的线性函数。

其二,核函数k的实现方法一般比直接构建Φ(x)再算点积高效不少

这个核也称为径向基函数(radial basis function,RBF)核,由于其值沿v中从u向外辐射的方向减小。高斯核对应于无限维空间中的点积,可是该空间的推导没有整数上最小核的示例那么直观。

能够认为高斯核在执行中一种模板匹配(template matching)。训练标签y相关的训练样本x变成了类别y的模板。当测试点x/到x的欧几里得距离很小,对应的高斯核响应很大时,代表x'和模板x很是类似。该模型进而会赋予相对应的训练标签y较大的权重。总的来讲,预测会将组合不少这种经过训练样本类似度加权的训练标签。

许多其余的线性模型也能够经过这种方法来加强。使用核技巧的算法类别被称为核机器(kernel machine)或核方法(kernel method)

核机器的一个主要缺点是计算决策函数的成本关于训练样本的数目是线性的。由于第i个样本共享 αik(x,x(i)) 到决策函数。支持向量机可以经过学习主要包含零的向量α,以缓和这个缺点。

当数据集很大时,核机器的计算量也会很大。带通用核的核机器致力于泛化得更好。现代深度学习的设计旨在克服核机器的这些限制。当前深度学习的复兴代表神经网络可以在MNIST基准数据上赛过RBF核的支持向量机。

其余简单的监督学习算法

简要介绍过另外一个非几率监督学习算法,最近邻回归。

一类可用于分类或回归的技术。做为一个非参数学习算法,k-近邻并不局限于固定数目的参数。一般认为k-最近邻算法没有任何参数, 而是使用训练数据的简单函数。甚至也没有一个真正的训练阶段或学习过程。测试阶段咱们但愿在新的测试输入x上产生y,须要在训练数据X上找到x的k-最近邻。而后返回训练集上对应的y值的平均值。

分类状况中,能够关于one-hot编码向量c求平均,其中cy=1,其余的i值取ci=0。能够解释这些one-hot编码的均值为类别的几率分布。做为一个非参数学习算法,k-近邻能达到很是高的容量。

假设一个0-1偏差度量性能的多分类任务。在设定中,当训练样本数目趋向于无穷大时,1-最近邻收敛到两倍贝叶斯偏差。超出贝叶斯偏差的缘由是它们会随机从等距离的临近点中随机挑一个。而存在无限的训练数据时,全部测试点x周围距离为零的邻近点有无限多个。若是使用全部这些临近点投票的决策方式,而不是随机挑选,那么该过程将会收敛到贝叶斯错误率。

k-近邻高容量使其在训练样本数目大时可以获取较高精度。然而,它的计算成本很高,另外在训练集较小时泛化能力不好。

k-近邻的一个弱点是它不能学习出哪个特征比其余更具识别力。

假设要处理一个回归任务,其中x∈R100是从各向同性的高斯分布中抽取的,可是只有一个变量x1和结果相关。进一步假设该特征直接决定了输出,即在全部状况中y=x1.

最近邻回归不能检测到这个简单模式,大多数点x的最近邻将取决于x2到x100的大多数特征,而不是单独取决于特征x1。所以,小训练集上的输出将会很是随机。

决策树及其变种是另外一类将输入空间分红不一样的区域,每一个区域有独立参数的算法。

决策树的每一个节点都与输入空间的一个区域相关联,而且内部节点继续将区域分红子节点下的子区域(一般使用坐标轴拆分区域)。空间由此细分红不重叠的区域,叶节点和输入区域之间造成一一对应的关系。每一个叶结点将其输入区域的每一个点映射到相同的输出。

若是学习任意大小的决策树,那么它能够被视做非参数算法。然而实践中一般有大小限制,做为正则化将其转变成有参模型。决策树一般有大小限制,做为正则化将其转变成有参模型。决策树一般使用坐标轴相关的拆分,而且每一个子节点关联到常数输出,所以有时解决一些对于逻辑回归很简单的问题很费力。

假设有一个二分类问题,当x2>x1时分类为正,则决策树的分界不是坐标轴对齐的。所以决策树将须要许多节点近似决策边界,坐标轴对齐使其算法步骤不断地来回穿梭于真正的决策函数。

只处理“特征”,不操做监督信号。监督和无监督算法之间的区别没有规范严格的定义,由于没有客观的判断来区分监督者提供的值是特征仍是目标。

无监督学习的大多数尝试是指从不须要人为注释的样本的分布中抽取信息。该术语一般与密度估计相关,学习从分布中采样、学习从分布中去噪、寻找数据分布的流形或是将数据中相关的样本聚类。

经典的无监督学习任务是找到数据的“最佳”表现。“最佳”能够是不一样的表示,但通常来讲,指该表示在比自己表示的信息更简单或更易访问而受到一些惩罚或限制的状况下,尽量地保存关于x更多的信息。

最多见的3种包括低维表示、稀疏表示、独立表示

低维表示尝试将x中的信息尽量压缩在一个较小的表示中。

稀疏表示将数据集嵌入到输入项大多数为零的表示中。一般用于须要增长表示维数的状况,使得大部分为零的表示不会丢失不少信息。使得表示的总体结构倾向于将数据分布在表示空间的坐标轴上。

独立表示视图分开数据分布中变化的来源,使得表示的维度是统计独立的。

这三个标准并不是相互排斥,低维表示一般会产生比原始的高维数据具备较少或较弱依赖关系的元素。由于减小表示大小的一种方式是找到并消除冗余。识别并去除更多的冗余使得降维算法在丢失更少信息的同时显现更大的压缩。

PCA算法提供了一种压缩数据的方式。将PCA视为学习数据标识的无监督学习算法。这种基于上述简单表示的两个标准。

PCA学习一种比原始输入维度更低的表示。也学习了一种元素之间彼此没有线性关系的表示。这是学习表示中元素统计独立标准的第一步。要实现彻底独立性,表示学习算法也必须去掉变量间的非线性关系。

我要回帖

更多关于 随机变量两两独立和相互独立 的文章

 

随机推荐