为什么标准差要对分母n-1开根？

ICEY（游戏） | 休闲游戏 | 大学专业 | 三国人物 | 三国志（游戏） | Xbox One | AutoCAD | 基因 | solidworks | 细胞生物学 | 塞尔达传说（游戏） | 总决赛 | 游戏策划 | C4D | 计算机专业 | 美国留学 | 武侠 | 网盘 | 板胡 | centos | 任天堂 | 校服 | 卡牌游戏 | 桌面游戏 | 街机游戏 | Overlord（动画） | 几何学 | C/C++ | 拳皇 | 榕江县 | 女性主义 | 最终幻想（游戏） | 略阳县 | 法国 | 游戏手柄 | CAD制图 | HTML | 陶渊明 | galgame | 地图应用 | 热血传奇（游戏） | 舰队 Collection | CSS | 洗发水 | 爬虫（计算机网络） | 四大会计师事务所 | 新西兰 | 高中物理 | Adobe After Effects | 英雄连2阿登突击（游戏） | 高德地图（amap） | 洛阳 | 马来西亚 | 书法 | 昆虫 | ios游戏 | 亲子鉴定 | 鱼类 | 恐怖游戏 | Spss数据分析 | 海贼王 | 动物保护 | 云主机 | 掌上游戏机 | 钢铁雄心4 | 世界杯 | 阳信县 | 魔兽争霸3冰封王座 | 流量套餐 | 工业机器人 | 江宁区 | 电厂 | iPhone 11 | 铅山县 | 奎屯市 | 郭嘉 | 航拍 | 怪物猎人：世界 | 开关电源 | onenote | 极限挑战(综艺节目) | 塔罗牌 | 方木 | pdf | 数学建模 | 装修公司 | 植保无人机 | 快捷键 | 生死狙击手游 | 白兰地 | 遗传学 | 虚拟机 | 天下2（游戏） | 炉石传说 | 魔兽争霸3混乱之治 | 易经 | 绿茶 | 烘焙 | 梦三国（游戏） | 投影仪 | 文化差异 | 央视 | 任天堂3ds | 演员 | 土地政策 | 容县 | 智能手机 | 希腊 | 传统文化 | Microsoft SQL Server | 乌海市 | 猎头公司 | 彩虹六号（游戏） | 谷歌（Google） | 市南区 | 命令与征服：红色警戒2（游戏） | 英语学习 | 声音 | 欢乐麻将 | 身高 | 超级战队 | 智商 | 蓄电池 | 正则表达式 | 秦岭 | 金庸 | 徐州市 | 创业公司 | 锦州市 | 金庸小说 | 毛笔书法 | 长江 | 调酒 | 汽车发动机 | 3DMAX | 钢笔 | 游戏直播 | C#编程 | 培训班 | 食物 | 春节联欢晚会 | 火影忍者手游 | 暖通 | 象棋 | 男性 | 办公软件 | 图像处理 | 雷欧奥特曼 | 英雄传说：闪之轨迹（游戏） | 飞船 | 300英雄 | 电脑游戏 | 名言 | 乐器 | Apple ID | 我的英雄学院 | 自然科学 | 华为荣耀 | 刷单 | 生存游戏 | 面相 | 日本文化 | 模特 | 游戏攻略 | 游戏原画 | 网址导航 | 太极拳 | 编辑器 | 食用油 | 足球欧洲杯 | 抑郁症 | 化妆品 | Microsoft Visual Studio | 充电器 | 培训学校 | 古剑奇谭ol | 龙之谷（游戏） | wifi万能钥匙 | 中国 | 荆门 | 手机摄影 | 任天堂wii | 暴走大事件 | 嵌入式 | 美的 | 社交 | Jquery | 史莱姆 | 曹操 | 图形处理器（gpu） | NBA篮球 | 潮汕地区 | 设计公司 | 网站建设 | 刺客信条2 | 冰雪奇缘（电影） | 动画制作 | 网络赚钱 | 暗恋 | 老挝 |

你的位置：网站首页 >> 频道首页 >>统计学 >>为什么标准差要对分母n-1开根？

为什么标准差要对分母n-1开根？

来源：蜘蛛抓取(WebSpider) 时间：2022-06-06 07:37 标签：标准差分母为什么减1

方差的单位是随机变量单位的平方（recall ）

我们知道条件概率无非就是在一个条件出现后的“新的宇宙”中审视事件的概率，所以其与普通的概率没有什么区别。因此，我们也可以在一个事件发生的条件下定义一个随机变量的概率质量函数，我们称这样的概率质量函数为 条件概率质量函数 Conditional PMF

在事件A的条件下，随机变量X的概率质量函数为

表示的是在事件A发生的条件下，当随机变量等于一个值时的概率

当然，根据条件概率的性质

在事件A的条件下，随机变量X的期望为

因为“条件”无非是在一个“新宇宙”中审视概率，所以对于条件质量函数，条件期望（或者是条件方差），该有的性质都成立，只不过都要加上“条件”。比如，随机变量函数的条件期望公式，

线性函数的条件期望等于条件期望的线性函数，

上节课我们已经提到几何PMF是如下的PMF

这个式子，通过代数的方法不难计算，是几何级数的导数

然而，我们也可以用概率论的方法去计算X的期望

有两个人A，B抛硬币，记X为A抛硬币抛到正面所需的最小次数，Y为B抛硬币抛到正面所需的最小次数。单次投掷硬币抛到正面的概率为p。其中B比较急，先于A抛了两次硬币，可惜都是背面，之后B和A都按照同样的规则抛硬币。

而对于B来说，有的人可能会认为，他抛到次数多了，自然抛到正面的概率大一点。但是事实上，因为每次抛硬币都是互相独立的，所以B在前两次硬币都是反面的情况下和A抛硬币的条件是一模一样的。

而且我们知道在前两次之后，A和B抛硬币的条件是一模一样的，即Y只要减去前两次，概率的情况就和X一模一样，即

这里Y和X是等价的，并且我们知道在前n次都为反面的条件下，n此过后，A和B的情况就是一样的

所以,对于几何PMF来说

我们称几何PMF/几何分布的这种性质为无记忆性 memorylessness ，表示其未来发生的事和过去没有关系。

从PMF的图像上我们也可以看到这一点:

把前两列去掉并做偏移之后，对下图需要进行标准化（缩放）使得所有k的概率之和为1。而缩放完的的结果和无异。

而直接的代数证明也十分容易：

由此我们可知，几何分布的期望也是没有记忆的

因为在浪费了n个投硬币机会后，之后投硬币的情况和之前并无任何区别

运用几何PMF的无记忆性，我们可以计算出其期望。不过在此之前，先引入一个定理

由全概率公式，我们知道一个事件的概率可以由其在各个互斥事件中的占比的加权和表示，即

而对于PMF来说，也是如此

因为当x取一个特定的值时，就是，就是

式中的事件B，就是“”

于是的期望就可以用式表示

其中为样本空间的一个划分

直观上说明了一个随机变量的期望是其在每种情况下期望的加权和

运用全期望定理和几何级数的无记忆性，我们可以通过概率论的方法计算出几何分布的期望：

假设事件是，事件是，显然是的一个划分

那么运用全概率公式我们知道

显然是1，因为在的条件下，只可能是1

而对于，我们运用期望的线性性质稍作变换，再通过几何分布期望的无记忆性，可以得出

这确实符合常理，投出正面的概率越小，我们一般就需要更多的次数来投出正面，反之。

上述的方法运用了分治的思想。

取一个学校的学生为样本，我如果想知道身高为a，体重为b的学生出现的概率，很自然地就想到建立拥有两个变量的概率质量函数

一个二元的联合PMF可以这么表示

我们可以知道对应x，y的概率，无非就是一个离散的二元函数

显然，所有的概率之和为1

如果我只关心X的PMF，我只需要把对应x的所有Y的概率加起来即可

我们也可以由联合PMF得出y等于某个值时X的条件PMF

在y等于某个特定的值时，x为不同值的概率之间的比例是不变的，我们只需要将x的概率标准化即可

即计算每个X的值在事件Y = y中的占比

把这样所有的条件概率相加，和依然是1，因为条件概率无非就是在一个新宇宙中重新审视概率

参考资料：MIT6.041公开课程及讲义

例如 第一期 预测值3 实际1 
 第二期 预测值4 实际2 
 第三期 预测值5 实际值3
请问这题要怎么算：相对误差绝对值平均值，，均方差，标准差

这都四年了快。。。。 相对误差 一到三期都是2。 绝对均值也是2. 均方差是14/3 标准差是均方差开根。

在测量中将被测的真实值定义为无穷次测量中偶然误差的算术平均值，所以有限次测量结果的算术平均值是最接近实际值的，这时的误差称平均误差。（n次测量的误差相加后除以n）
绝对误差指测量值与实际值（或标准值）之差的绝对值。
绝对值指将一个数值平方后在开方的结果。实际上就是去掉正负号。表示时在两边加上 | 。例如 －2的绝对值是 |2| 。
均方差又称均方根误差。它可作为衡量测量精度的一种数值指标。其定义为 ，i＝1，2，3，…n。在有限测量次数中，均方根误差常用下式表示：√[∑di*2/(n-1)]=re，式中:n为测量次数；di为一组测量值与平均值的偏差。如果误差统计分布是正态分布，那么随机误差落在土σ以内的概率为68％。
标准差指上面 土σ 的边界的绝对值。
仪表有个最大允许误差，指上面 土3σ 的边界的绝对值。

（一）：漫谈knn：原文链接：看引擎...有点对不起作者，不过没有办法，联系不到啊....

关于分类问题：KNN为空间类别判别提供了最终的原型...

首先我要说的是为什么我们要寻找邻居啊，古话说的好，人以类聚，物以群分，要想知道一个人怎么样，去看看他的朋友就知道了，其实这个过程就蕴含了KNN的算法核心思想，我们如果要判断一个样本点的类别，去看看和它相似的样本点的类别就行了，If it walks like a duck, quacks like a duck, then it is

好了，在深入了解KNN之前有必要了解一下分类算法的大致情况以及其完整定义。图2所示的是一般的分类模型建立的步骤，分类一般分为两种：

积极学习法 (决策树归纳)：先根据训练集构造出分类模型，根据分类模型对测试集分类。

消极学习法 (基于实例的学习法):推迟建模，当给定训练元组时，简单地存储训练数据 (或稍加处理)，一直等到给定一个测试元组。

消极学习法在提供训练元组时只做少量工作，而在分类或预测时做更多的工作。KNN就是一种简单的消极学习分类方法，它开始并不建立模型，而只是对于给定的训练实例点和输入实例点，基于给定的邻居度量方式以及结合经验选取合适的k值，计算并且查找出给定输入实例点的ｋ个最近邻训练实例点，然后基于某种给定的策略，利用这ｋ个训练实例点的类来预测输入实例点的类别。算法的过程如图3所示：

了解了KNN的主体思想以后，接下来我们就来逐一的探讨和回答我在第一章所提出的四个问题，第一个就是如何度量邻居之间的相识度，也就是如何选取邻居的问题，我们知道相似性的度量方式在很大程度上决定了选取邻居的准确性，也决定了分类的效果，因为判定一个样本点的类别是要利用到它的邻居的，如果邻居都没选好，准确性就无从谈起。因此我们需要用一个量来定量的描述邻居之间的距离，也可以形象的表述为邻居之间的相似度，具体的距离度量方式有很多，不同的场合使用哪种需要根据不同问题具体探讨，具体的我就不罗嗦，在这篇博文中有详细的阐述。以下给出了使用三种距离（欧式距离，曼哈顿距离，还有切比雪夫距离）的对glass数据集测试的例子，测试结果如图4所示：红线指的是实验使用的距离度量方式，黄线指的是实验的结果，可以看出使用曼哈顿距离分类效果明显好于其他两种。

在给定了度量方式以后，我们自然而然会遇到一个问题就是到底要找多少个邻居才合适了，如图5所示，X是待分类样本，‘，’和‘-’是样本类别属性，如果K选大了的话，可能求出来的k最近邻集合可能包含了太多隶属于其它类别的样本点，最极端的就是k取训练集的大小，此时无论输入实例是什么，都只是简单的预测它属于在训练实例中最多的累，模型过于简单，忽略了训练实例中大量有用信息。如果K选小了的话，结果对噪音样本点很敏感。那么到底如何选取K值，其实我在前面也说了，其实完全靠经验或者交叉验证（一部分样本做训练

集，一部分做测试集）的方法，就是是K值初始取一个比较小的数值，之后不段来调整K值的大小来时的分类最优，得到的K值就是我们要的，但是这个K值也只是对这个样本集是最优的。一般采用k为奇数，跟投票表决一样，避免因两种票数相等而难以决策。下面我们可以通过交叉验证的方式求出最合适的K值，对iris数据（UCI Machine Learning Repository下载）用kNN算法进行分类，通过交叉验证（10次）的方式，对k取不同值时进行了实验，实验结果如图5所示，其中红线指的是实验选用的Ｋ值，黄线指的是实验的结果，我们发现在我所选取的k值中，当k=17时效果最好，在k=1时，即用最近邻来进行分类的效果也不错，实验结果呈现一个抛物线，与我们之前分析的结果相吻合。

好了，到这一步工作已经做了一半了，接下来就是如何去寻找这k个邻居了，因为对每一个待测样本点来说，我们都要对整个样本集逐一的计算其与待测点的距离，计算并存储好以后，接下来就是查找K近邻，这是最简单，也是最笨的方法，计算量太大了。因此KNN的一大缺点需要存储全部训练样本，以及繁重的距离计算量，有没有简单的一点的方法可以避免这种重复的运算啊，改进的方案有两个，一个是对样本集进行组织与整理，分群分层，尽可能将计算压缩到在接近测试样本邻域的小范围内，避免盲目地与训练样本集中每个样本进行距离计算。另一个就是在原有样本集中挑选出对分类计算有效的样说本，使样本总数合理地减少，以同时达到既减少计算量，又减少存储量的双重效果。KD树方法采用的就是第一个思路，关于KD树及其扩展可以参看博文，它对其进行了详细的阐述，我就不啰嗦了。我想补充的是压缩近邻算法，它采用的思路是第二种方案，利用现有样本集，逐渐生成一个新的样本集，使该样本集在保留最少量样本的条件下，仍能对原有样本的全部用最近邻法正确分类，那么该样本集也就能对待识别样本进行分类，并保持正常识别率。它的步骤如下：

首先定义两个存储器，一个用来存放即将生成的样本集，称为Store；另一存储器则存放原样本集，称为Grabbag。其算法是：

1. 初始化。Store是空集，原样本集存入Grabbag；从Grabbag中任意选择一样本放入Store中作为新样本集的第一个样本。

2. 样本集生成。在Grabbag中取出第i个样本用Store中的当前样本集按最近邻法分类。若分类错误，则将该样本从Grabbag转入Store中，若分类正确，则将该样本放回Grabbag中。

3. 结束过程。若Grabbag中所有样本在执行第二步时没有发生转入Store的现象，或Grabbag已成空集，则算法终止，否则转入第二步。

当然解决的方案很多，还有比如剪辑近邻法，快速搜索近邻法等等很多，就不一一介绍了。下面测试了一下不同最近邻搜索算法（线性扫描，kd树，Ball树，Cover树）所花费的时间，如表1所示：

到这一步基本上是万事俱备，只欠东风啦。K近邻（通俗的来说就是某人的k个最要好的朋友都找出来啦）都求出来啦，接下来就是要朋友们利用手中的投票器为其投票啦。一般的做法就是一人一票制，少数服从多数的选举原则，但是当和我测试对象离的近的数量少，而离得远的数量多时，这种方法可能就要出错啦，那咋办呢，看过歌唱选秀节目的人应该清楚，评审分为两种，一种是大众评审一人一票，一种是专家评审，一人可能有很多票，我们也可以借鉴这个思想，为每个邻居赋予一定的投票权重，通过它们与测试对象距离的远近来相应的分配投票的权重,最简单的就是取两者距离之间的倒数，距离越小，越相似，权重越大，将权重累加，最后选择累加值最高类别属性作为该待测样本点的类别。我用不同的权重方式对UCI中的glass数据集进行测试，图7显示的是直接不采用权重的实验结果，图8显示的是权重为距离的倒数，图9显示的是权重为1减去归一化后的距离，红线指的是实验使用的权重赋值方式，“0”指的是不采用权重，“0 -I”指的是取距离倒数，“0-F”指的是1减去归一化后的距离，深红线指的是实验的结果，我们可以看出采用了权重的总体上来说比不使用权重要好。

至此关于KNN算法的描述就到此结束了。可以看出算法的思想是十分简单的，我们自然而然的就会想这个算法的准确率到底是多少，有没有啥科学的证明，其实最初的近邻法是由Cover和Hart于1968年提出的，随后得到理论上深入的分析与研究，是非参数法中最重要的方法之一，它在论文Nearest Neighbor Pattern Classification中给出了算法准确率的相信描述。最近邻法的错误率是高于贝叶斯错误率的，其中代表的是贝叶斯误差率，由于一般情况下P*很小，因此又可粗略表示成：，对于kNN来说，当样本数量N→∞的条件下，k-近邻法的错误率要低于最近邻法，具体如图10所示：

1.2 K值对训练的影响：

一个选择多少个邻居，即K值定义为多大的问题。不要小看了这个K值选择问题，因为它对K近邻算法的结果会产生重大影响。如李航博士的一书「统计学习方法」上所说：

如果选择较小的K值，就相当于用较小的领域中的训练实例进行预测，“学习”近似误差会减小，只有与输入实例较近或相似的训练实例才会对预测结果起作用，与此同时带来的问题是“学习”的估计误差会增大，换句话说，K值的减小就意味着整体模型变得复杂，容易发生过拟合；
如果选择较大的K值，就相当于用较大领域中的训练实例进行预测，其优点是可以减少学习的估计误差，但缺点是学习的近似误差会增大。这时候，与输入实例较远（不相似的）训练实例也会对预测器作用，使预测发生错误，且K值的增大就意味着整体的模型变得简单。
K=N，则完全不足取，因为此时无论输入实例是什么，都只是简单的预测它属于在训练实例中最多的类，模型过于简单，忽略了训练实例中大量有用信息。

在实际应用中，K值一般取一个比较小的数值，例如采用法（简单来说，就是一部分样本做训练集，一部分做测试集）来选择最优的K值。

1.1一个人坚持自己的兴趣是比较难的，因为太多的人太容易为外界所动了，而尤其当你无法从中得到多少实际性的回报时，所幸，我能一直坚持下来。毕达哥拉斯学派有句名言：“万物皆数”，最近读完「微积分概念发展史」后也感受到了这一点。同时，从算法到数据挖掘、机器学习，再到数学，其中每一个领域任何一个细节都值得探索终生，或许，这就是“终生为学”的意思。

本文各部分内容分布如下：

第一部分讲K近邻算法，其中重点阐述了相关的距离度量表示法，
第二部分着重讲K近邻算法的实现--KD树，和KD树的插入，删除，最近邻查找等操作，及KD树的一系列相关改进(包括BBF，M树等)；
第三部分讲KD树的应用：SIFT+kd_BBF搜索算法。

同时，你将看到，K近邻算法同本系列的前两篇文章所讲的决策树分类贝叶斯分类，及支持向量机SVM一样，也是用于解决分类问题的算法，

而本数据挖掘十大算法系列也会按照分类，聚类，关联分析，预测回归等问题依次展开阐述。

1.2、近邻的距离度量表示法

上文第一节，我们看到，K近邻算法的核心在于找到实例点的邻居，这个时候，问题就接踵而至了，如何找到邻居，邻居的判定标准是什么，用什么来度量。这一系列问题便是下面要讲的距离度量表示法。但有的读者可能就有疑问了，我是要找邻居，找相似性，怎么又跟距离扯上关系了？

这是因为特征空间中两个实例点的距离和反应出两个实例点之间的相似性程度。K近邻模型的特征空间一般是n维实数向量空间，使用的距离可以使欧式距离，也是可以是其它距离，既然扯到了距离，下面就来具体阐述下都有哪些距离度量的表示法，权当扩展。

1. 欧氏距离，最常见的两点之间或多点之间的距离表示法，又称之为欧几里得度量，它定义于欧几里得空间中，如点 x = (x1,...,xn) 和 y = (y1,...,yn) 之间的距离为：

　　也可以用表示成向量运算的形式：

其上，二维平面上两点欧式距离，代码可以如下编写：

曼哈顿距离，我们可以定义曼哈顿距离的正式意义为L1-距离或城市区块距离，也就是在欧几里得空间的固定直角坐标系上两点所形成的线段对轴产生的投影的距离总和。例如在平面上，坐标（x1, y1）的点P1与坐标（x2, y2）的点P2的曼哈顿距离为：，要注意的是，曼哈顿距离依赖座标系统的转度，而非系统在座标轴上的平移或映射。

通俗来讲，想象你在曼哈顿要从一个十字路口开车到另外一个十字路口，驾驶距离是两点间的直线距离吗？显然不是，除非你能穿越大楼。而实际驾驶距离就是这个“曼哈顿距离”，此即曼哈顿距离名称的来源，同时，曼哈顿距离也称为城市街区距离(City Block distance)。

这也等于以下Lp度量的极值：，因此切比雪夫距离也称为L∞度量。

在平面几何中，若二点p及q的直角坐标系坐标为及，则切比雪夫距离为：。

这个公式的另一种等价形式是

标准化欧氏距离是针对简单欧氏距离的缺点而作的一种改进方案。标准欧氏距离的思路：既然数据各维分量的分布不一样，那先将各个分量都“标准化”到均值、方差相等。至于均值和方差标准化到多少，先复习点统计学知识。

假设样本集X的数学期望或均值(mean)为m，标准差(standard deviation，方差开根)为s，那么X的“标准化变量”X*表示为：(X-m）/s，而且标准化变量的数学期望为0，方差为1。
即，样本集的标准化过程(standardization)用公式描述就是：
若协方差矩阵是单位矩阵（各个样本向量之间独立同分布）,则公式就成了：

也就是欧氏距离了。　　
若协方差矩阵是对角矩阵，公式变成了标准化欧氏距离。
(2)马氏距离的优缺点：量纲无关，排除变量之间的相关性的干扰。

「微博上的seafood高清版点评道：原来马氏距离是根据协方差矩阵演变，一直被老师误导了，怪不得看Killian在05年NIPS发表的LMNN论文时候老是看到协方差矩阵和半正定，原来是这回事」
在统计中，Bhattacharyya距离测量两个离散或连续概率分布的相似性。它与衡量两个统计样品或种群之间的重叠量的Bhattacharyya系数密切相关。Bhattacharyya距离和Bhattacharyya系数以20世纪30年代曾在印度统计研究所工作的一个统计学家A. Bhattacharya命名。同时，Bhattacharyya系数可以被用来确定两个样本被认为相对接近的，它是用来测量中的类分类的可分离性。

对于离散概率分布 p和q在同一域 X，它被定义为：

对于连续概率分布，Bhattacharyya系数被定义为：

对于多变量的高斯分布，

和是手段和协方差的分布。

需要注意的是，在这种情况下，第一项中的Bhattacharyya距离与马氏距离有关联。

Bhattacharyya系数是两个统计样本之间的重叠量的近似测量，可以被用于确定被考虑的两个样本的相对接近。

计算Bhattacharyya系数涉及集成的基本形式的两个样本的重叠的时间间隔的值的两个样本被分裂成一个选定的分区数，并且在每个分区中的每个样品的成员的数量，在下面的公式中使用

8. 汉明距离(Hamming distance)，两个等长字符串s1与s2之间的汉明距离定义为将其中一个变为另外一个所需要作的最小替换次数。例如字符串“1111”与“1001”之间的汉明距离为2。应用：信息编码（为了增强容错性，应使得编码间的最小汉明距离尽可能大）。

或许，你还没明白我再说什么，不急，看下中第78题的第3小题整理的一道面试题目，便一目了然了。如下图所示：

//分别表示：添加1个，删除1个，替换1个（相同就不用替换）。

（中第78题的第3小题给出了多种方法，读者可以参看之。同时，程序员编程艺术系列第二十八章将详细阐述这个问题）

9. 夹角余弦(Cosine) ，几何中夹角余弦可用来衡量两个向量方向的差异，机器学习中借用这一概念来衡量样本向量之间的差异。

夹角余弦取值范围为[-1,1]。夹角余弦越大表示两个向量的夹角越小，夹角余弦越小表示两向量的夹角越大。当两个向量的方向重合时夹角余弦取最大值1，当两个向量的方向完全相反夹角余弦取最小值-1。

两个集合A和B的交集元素在A，B的并集中所占的比例，称为两个集合的杰卡德相似系数，用符号J(A,B)表示。　

杰卡德距离用两个集合中不同元素占所有元素的比例来衡量两个集合的区分度。

可将杰卡德相似系数用在衡量样本的相似度上。

举例：样本A与样本B是两个n维向量，而且所有维度的取值都是0或1，例如：A(0111)和B(1011)。我们将样本看成是一个集合，1表示集合包含该元素，0表示集合不包含该元素。

依据上文给的杰卡德相似系数及杰卡德距离的相关定义，样本A与B的杰卡德相似系数J可以表示为：

这里M 11+ M 01+ M 10可理解为A与B的并集的元素个数，而M 11是A与B的交集的元素个数。而样本A与B的杰卡德距离表示为J'：

相关系数衡量随机变量X与Y相关程度的一种方法，相关系数的取值范围是[-1,1]。相关系数的绝对值越大，则表明X与Y相关度越高。当X与Y线性相关时，相关系数取值为1（正线性相关）或-1（负线性相关）。

具体的，如果有两个变量：X、Y，最终计算出的相关系数的含义可以有如下理解：

当相关系数为0时，X和Y两变量无关系。
当X的值增大（减小），Y值增大（减小），两个变量为正相关，相关系数在0.00与1.00之间。
当X的值增大（减小），Y值减小（增大），两个变量为负相关，相关系数在-1.00与0.00之间。

OK，接下来，咱们来重点了解下皮尔逊相关系数。

在自然科学领域中，该系数广泛用于度量两个变量之间的相关程度。它是由卡尔·皮尔逊从弗朗西斯·高尔顿在19世纪80年代提出的一个相似却又稍有不同的想法演变而来的。这个相关系数也称作“皮尔森相关系数r”。

(1)皮尔逊系数的定义：

两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商：

以上方程定义了总体相关系数, 一般表示成希腊字母ρ(rho)。基于样本对协方差和方差进行估计，可以得到样本标准差, 一般表示成r：

一种等价表达式的是表示成标准分的均值。基于(Xi, Yi)的样本点，样本皮尔逊系数是

或许上面的讲解令你头脑混乱不堪，没关系，我换一种方式讲解，如下：

假设有两个变量X、Y，那么两变量间的皮尔逊相关系数可通过以下公式计算：

注：勿忘了上面说过，“皮尔逊相关系数定义为两个变量之间的协方差和标准差的商”，其中标准差的计算公式为：

以上列出的四个公式等价，其中E是，cov表示，N表示变量取值的个数。

(2)皮尔逊相关系数的适用范围
当两个变量的标准差都不为零时，相关系数才有定义，皮尔逊相关系数适用于：

两个变量之间是线性关系，都是连续数据。

两个变量的总体是正态分布，或接近正态的单峰分布。

两个变量的观测值是成对的，每对观测值之间相互独立。

(3)如何理解皮尔逊相关系数

rubyist：皮尔逊相关系数理解有两个角度

其一, 按照高中数学水平来理解, 它很简单, 可以看做将两组数据首先做Z分数处理之后, 然后两组数据的乘积和除以样本数，Z分数一般代表正态分布中, 数据偏离中心点的距离.等于变量减掉平均数再除以标准差.(就是高考的标准分类似的处理)

样本标准差则等于变量减掉平均数的平方和，再除以样本数，最后再开方，也就是说，方差开方即为标准差，样本标准差计算公式为：

所以, 根据这个最朴素的理解,我们可以将公式依次精简为:

其二, 按照大学的线性数学水平来理解, 它比较复杂一点,可以看做是两组数据的向量夹角的余弦。下面是关于此皮尔逊系数的几何学的解释，先来看一幅图，如下所示：

如上图，对于没有中心化的数据, 相关系数与两条可能的回归线y=gx(x) 和 x=gy(y) 夹角的余弦值一致。
对于没有中心化的数据 (也就是说, 数据移动一个样本平均值以使其均值为0), 相关系数也可以被视作由两个随机变量向量夹角的余弦值（见下方）。
利用通常的方法计算两个向量之间的夹角 (参见数量积), 未中心化的相关系数是:

(4)皮尔逊相关的约束条件

从以上解释, 也可以理解皮尔逊相关的约束条件:

1 两个变量间有线性关系

3 变量均符合正态分布,且二元分布也符合正态分布

在实践统计中,一般只输出两个系数,一个是相关系数,也就是计算出来的相关系数大小,在-1到1之间;另一个是独立样本检验系数,用来检验样本一致性。

简单说来，各种“距离”的应用场景简单概括为，空间：欧氏距离，路径：曼哈顿距离，国际象棋国王：切比雪夫距离，以上三种的统一形式:闵可夫斯基距离，加权：标准化欧氏距离，排除量纲和依存：马氏距离，向量差距：夹角余弦，编码差别：汉明距离，集合近似度：杰卡德类似系数与距离，相关：相关系数与相关距离。