0+1i等于1几

第一章 计算机基础知识

世界上第一台计算机ENIAC(诞生于1946年美国宾夕法尼亚大学,是世界上第一台电子离散变量自动计算机)

计算机之父----冯·诺依曼.

归纳了的主要特点如下:

(1)计算机的程序和程序运行所需要的数据以二进制形式存放在计算机的存储器中。

(2)程序和数据存放在存储器中,即程序存储的概念。计算机执行程序时,无需人工干预,能自动、连续地执行程序,并得到预期的结果。

根据冯·诺依曼的原理和思想,决定了计算机必须有输入、存储、运算、控制和输出五个组成部分。

【知识点2】计算机发展经历了四个阶段

【知识点3】微型计算机

1971年,第一片微处理器诞生,标志进入了微型机阶段。

【知识点4】我国计算机的发展

1958年 我国研制成功第一台电子计算机。

银河、曙光、神威是我国研制的高性能巨型计算机。

【知识点5】计算机的特点、应用和分类

(1)高速、精确的运算能力

(2)准确的逻辑判断能力

计算机辅助设计(CAD)、计算机辅助制造(CAM)、计算机辅助教育(CAI)、计算机辅助技术(CAT)等。

(1)按计算机处理数据的类型可以分为:模拟计算机、数字计算机、数字和模拟计算机。

(2)按计算机的用途可以分为:通用计算机和专用计算机。

(3)按计算机的性能、规模和处理能力可将计算机分为巨型机、大型通用机、微型计算机、工作站、服务器等。

计算机采用二进制编码,只有“0”和“1”两个数码。

计算机中数据的最小单位是位(bit);存储容量的基本单位是字节(Byte)。8个二进制位称为1个字节;字长是计算机的一个重要指标,直接反映一台计算机的计算能力和计算精度。字长越长,计算机的数据处理速度越快。

1、多位数码中每一位的构成方法以及从低位到高位的进位规则称为进位计数制(简称数制)。

2、如果采用R个基本符号(例如0,1,2,……R-1)表示数值,则称R数制,R称该数制的基数,而数制中固定的基本符号称为“数码”。处于不同位置的数码代表的值不同,与它所在位置的“权”值有关。

3、计算机中常用的几种进位计数制的表示

【知识点9】进制之间转换

1、十进制数转换为二进制数

方法:基数连除、连乘法

原理:将整数部分和小数部分分别进行转换。

整数部分采用基数连除法,小数部分采用基数连乘法,转换后再合并。

整数部分采用基数连除法,除基取余,先得到的余数为低位,后得到的余数为高位。

小数部分采用基数连乘法,乘基取整,先得到的整数为高位,后得到的整数为低位。

2、二进制数与八进制数的相互转换

二进制数转换为八进制数:将二进制数由小数点开始,整数部分向左,小数部分向右,每3位分成一组,不够3位补零,则每组二进制数便是一位八进制数。

八进制数转换为二进制数:将每位八进制数用3位二进制数表示。

3、二进制数与十六进制数的相互转换

二进制数与十六进制数的相互转换,按照每4位二进制数对应于一位十六进制数进行转换。

用一定位数的二进制数来表示十进制数码、字母、符号等信息称为编码

ASCII 码(美国信息交换标准交换代码)

有两个版本:7位码和8位码。

国际通用是7位 ASCII 码,即用7位二进制数表示一个字符的编码。

要记住的几个字符的编码值:

a 字符编码为1100001,对应十进制为97,则 b 的编码值为98。

A 字符编码为1000001,对应十进制为65,则 B 的编码值为66。

0数字字符编码为0110000,对应十进制为48,则1的编码值为49。

注意:计算机内部用一个字节存放一个7位 ASCII 码,最高位置0。

最初由 APPLE 公司发起制定的通用多文字集,后被 Unicode 协会开发为表示几乎世界上所有书写语言的字符编码标准。

1980年 我国颁布了国家汉字编码标准

GB 2312-80 全称是《信息交换用汉字编码字符集》简称国标码把常用6763个汉字分成两级,一级汉字3755个,二级汉字3008个。

用两个字节表示一个汉字,每个字节只有7位,与 ASCII 码相似。

国标码:由4位16进制数组成

区位码:将 GB 2312-80的全部字符集组成一个94×94的方阵,每一行称为一个“区”,编号为0l~94;每一列称为一个“位”,编号为0l~94,这样得到 GB 2312-80的区位图,用区位图的位置来表示的汉字编码,称为区位码。由4位10进制数组成,前两位为区号,后两位为位号。

国标码=区位码(转换为16进制)+2020 H。

GBK 编码—扩充汉字编码共收录21003个汉字,也包含 BIG5(港奥台)编码中的所有汉字。

汉字输入码:为将汉字输入计算机而编制的代码称为汉字输入码,也叫外码。

汉字内码:汉字内码是为在计算机内部对汉字进行存储、处理的汉字编码,它应满足汉字的存储、处理和传输的要求。

汉字的内码=汉字的国标码+(8080)H

【知识点11】多媒体技术

1、媒体:指文字、声音、图象、动画和视频等内容。

多媒体技术是指能够同时对两种或两种以上的媒体进行采集、操作、编辑、存储等综合处理的技术。

多媒体技术处理的是数字信号,并具有交互性、集成性、多样性、实时性等特征。

(2)图象数字化-BMP 文件、GIF 文件等

【知识点12】计算机病毒及其防治

1、计算机病毒一般具有寄生性、破坏性、传染性、潜伏性和隐蔽性的特征。

2、计算机病毒的分类:

(5)Internet病毒(网络病毒)

一套完整的计算机系统由软件系统和硬件系统两部分组成。

软件系统是为运行、管理和维护计算机而编制的各种程序、数据和文档的总称。

【知识点2】软件系统及其组成

系统软件中最重要且最基本的是操作系统。它是最底层的软件,控制所有计算机上运行的程序并管理整个计算机的软硬件资源,是计算机裸机与应用程序及用户之间的桥梁。常用操作系统有Windows、Linnx、DOS、Unix、MacOS等。

【知识点3】计算机语言

1、概念:人与计算机“沟通”使用的语言

机器语言:直接用二进制代码表示指令系统的语言

汇编语言:是一种把机器语言“符号化”的语言

汇编语言源程序:用汇编语言写的程序

目标程序:翻译后的机器语言程序

汇编程序:将源程序翻译成目标程序的软件

高级语言(算法语言):具有严格的语法和语义规则。

编译:将源程序一次翻译成目标程序。在经过链接便可执行

解释:将源程序逐句翻译、逐句执行的。

【知识点4】微型计算机的组成

构成:运算器、控制器、若干个寄存器和高速缓存。

性能指标:直接决定了整台机器的性能、字长和时钟主频。

分类:主存储器和辅助存储器

(1)主存储器(放在主机内部的,用于存放当前运行的程序和数据。)

a、随机存取存储器(RAM)

RAM 是 PC 的主要存储区域;它允许读写数据;

b、只读存储器(ROM)

它包含可以访问和读取但不能修改的程序与数据;

2)高速缓存(Cache)

用于临时存储频繁使用的信息以加快访问速度;

三级 Cache:主板使用的

(2)辅助存储器(外存储器)

b、一次性写入光盘 CD-R

(1)分类:阴极射线管显示器(CRT)和液晶显示器(LCD)

分辨率:整个屏幕上像素的数目=列*行

显示存储器(简称显存)

显示器的尺寸:用显示屏的对角线来衡量

6、微型计算机的主要技术指标

(1)字长:CPU 一次能同时处理二进制数据的位数。

(2)时钟主频:指 CPU 的时钟频率,单位 GHz。

(3)运算速度:指每秒钟所能执行加法指令数目,常用 MIPS 表示。

(4)存储容量:主要指内存的存储容量。

(5)存取周期:指 CPU 从内存储器中存取数据所需要的时间。

【知识点5】计算机的硬件组成

五个功能部件:输入设备、运算器、存储器、控制器、输出设备其中运算器和控制器,合称中央处理器,简称 CPU。

功能:对二进制数码进行算术运算或逻辑运算。

构成:由一个加法器、若干个寄存器和一些控制线路组成。

衡量性能指标:字长和速度。

功能:指挥整个机器各个部件自动、协调工作。

构成:指令寄存器、译码器、时序节拍发生器、操作控制部件、指令计数器。

(1)机器指令:计算机可以真正“执行”的命令。

机器指令构成:操作码+操作数

操作码、源操作数(或地址)、目的操作数

(2)指令的执行过程:

1)根据程序计数器里的内容到存储器中读取当前要执行的指令,同时把他放到指令寄存器中。

3)控制器根据译码器的输出,按一定顺序产生执行该指令的所有控制信号。

4)在控制信号的作用下,使各个部件完成相应的工作。

功能:用来存储当前要执行的程序、数据及结果,具有存数和取数功能。

存数:指向存储器里“写入”数据

取数:指从存储器里“读取”数据

访问:读写操作统称对存储器访问

内存储器(内存):CPU 可以直接访问其里的数据。

外存储器(外存):CPU 不可直接访问其里的数据,只有先调入内存方可使用。

4、输入/输出设备(I/0 设备)

功能:向计算机输入命令、程序、数据等信息。把这些信息转换为计算机能识别的二进制代码。

例子:键盘、鼠标、扫描仪、手写板、麦克、照相机、摄像机、游戏操作杆、条形码阅读器、光学字符阅读器、触摸屏、光笔等。

功能:将计算机处理后的各种内部格式信息转换为人们能识别的形式表达出来。

例子:显示器、打印机、绘图仪、音响等。

5、计算机的结构-各部件的连接方式

总线:是一组连接各个部件的公共通信线。

数据总线:传输数据信号的公共通路

地址总线:传输地址信号的公共通路

控制总线:传输控制信号的公共通路

就是【现在开始准备来不来得及】

【现在如何备考才最有效】

老师这里再次给出明确回复

关键看你能刷多少必考原题

而我们的必考原题真的不多

用我们给大家指出的冲刺策略

你真的能快速通过考试!

因为这是最有效、最省时的通关捷径了

只刷必考原题就能通过考试

请到我们的职教平台免费下载

听了菜菜的sklearn课程所做的学习笔记

  • 逻辑回归的基础一线性回归简介
  • 逻辑回归一预测离散型标签
    • 标签为0-1的离散型变量,二分类思想
    • 二元逻辑回归的一般形式
    • 逻辑回归除了可以用来二分类,也可以多分类
  • sklearn种最简单的逻辑回归分类器
  • 二元逻辑回归的损失函数
  • 一些其它样本均衡的方法
  • 案例:用逻辑回归制作评分卡
  • 数据分析(模型卡建立及检验)步骤
  • 量纲不需要统一,数据分布也不需要标准化
  • 样本不均衡问题解决方案
  • 计算模型的woe值并映射到原数据上

线性回归的任务:构造预测函数z来映射输入的特征矩阵x和标签值y的线性关系;

注:通过函数z,线性回归使用输入的特征矩阵X来输出一组连续型的标签值y_pred,以完成各种预测连续型变量的任务(比如预测产品销量,预测股价等等)。

线性回归的核心:找出模型的参数θ,最著名的方法是最小二乘法

联系函数:将连续型变量转化为离散型变量的函数。

标签为0-1的离散型变量,二分类思想


  • 当z→∞时,g(z)→1;当z→-∞时,g(z)→0;
  • 用于将任何实数映射到(0,1)区间,使其可用于将任意值函数转换为更适合二分类的函数;
  • 归一化的方法,同理的还有MinMaxSclaer方法,只不过它将函数转化到[0,1]区间而不是(0,1)。

二元逻辑回归的一般形式

形似几率取对数的本质是线性回归z,因此逻辑回归又叫"对数几率回归"。


y(x):本质上不是概率,却拥有着概率的性质,因此被当作概率来使用。

y(x)与1-y(x):可以看成一对正反例,y(x)是某样本标签被预测为1的概率,1-y(x)是某样本标签被预测为0的概率,y(x)/(1-y(x))是样本i的标签被预测为1的相对概率

注:使用最大似然法和概率分布函数推导出逻辑回归的损失函数,并且把返回样本在标签取值上的概率当成是逻辑回归的性质来使用,每当我们诉求概率的时候,我们都会使用逻辑回归。

逻辑回归除了可以用来二分类,也可以多分类

  • 对线性关系的拟合效果极好;
  • 返回的分类结果不是固定的0,1,而是以小数形式呈现的类概率数字;
    :决策树,随机森林等输出的是分类结果,但不会计算分数。
  • 抗噪能力强:技术上来说,最佳模型的AUC面积低于0.8时,逻辑回归明显优于树模型”的说法。并且,逻辑回归在小数据集上表现更好,在大型的数据集上树模型有着更好的表现。

求解能够让模型对数据拟合程度最高的参数θ的值,以此构建预测函数y(x),然后将特征矩阵X输入预测函数来计算出逻辑回归的结果y。

(又叫logit回归,最大熵分类器)

二元逻辑回归的损失函数

逻辑回归与决策树及随机森林的区别:

  • 逻辑回归侧重于追求模型在训练集上表现最优;
  • 决策树及随机森林侧重于追求模型在测试集上表现最优。

损失函数一衡量参数θ优劣的评估指标,求解最优参数的工具

  • 损失函数小,模型在训练集上表现优异,拟合充分,参数优秀;
  • 损失函数大,模型在训练集上表现差劲,拟合不足,参数糟糕

注:没有"求解参数"需求的模型没有损失函数,eg:KNN,决策树。

损失函数由极大似然估计推导出:

  • yi:样本i真实的标签
  • yθ(xi):样本i基于θ预测的标签值
  • xi:样本i的各个特征的值

逻辑回归追求:能够让J(θ)取min的参数组合;

注:对于J(θ),x、y是已知参数,θ是自变量,求导(或偏导)时要注意对θ求导(或偏导)。


(模型拟合好,损失小的目的,我们每时每刻都希望 的值等于1)

(在这个函数上,追求最小值就能让模型在训练数据上的拟合效果最好,损失最低)

(因为极力追求J(θ)的最小值,让模型在训练集上表现最有,但是在测试集上表现却不好,即出现了过拟合的现象,为了对逻辑回归中的过拟合进行控制,可以正则化。)

  • L1正则化:J(θ)+θ的L1范式的倍数;
  • L2正则化:J(θ)+θ的L2范式的倍数;

(正则项/惩罚项:即J(θ)后加的范式)

  • C:控制正则化程度的超参数,在LogisticRegression中参数的名字也是C;
  • n:方程中特征的总数;
  • j≥1的原因:因为θ中的第一个参数θ0是截距,一般不参与正则化。
  1. 正则化调节模型拟合程度的方法:正则化后,损失函数改变,基于损失函数的最优化求得的解θ就会随之改变。
  2. 一些其他博客或资料中,正则化后的损失函数也会这样写:
    但在sklearn中,常数C通常写在J(θ)的前面,通过调节J(θ)的大小,来调节对模型的惩罚。
  3. L1/L2正则化效果不同:正则化强度越大,C越小,θ越的取值越小
  • L1正则化可以将参数θ中的元素压缩到0;

    (在L1正则化的过程中,携带信息量小的、对模型贡献不大的特征的参数会比携带信息量大的、对模型贡献大的特征的参数更快地变为0,因为L1正则化其实是一个特征选择的过程,掌管了参数的"稀疏性"。L1正则化也正是基于此来防止过拟合,由于L1正则化这个性质,逻辑回归的特征选择可以由embedded嵌入法来完成。)

  • L2正则化不会将参数θ中的元素压缩到0,但是会让元素变得非常小(趋于0)。

  • 由此可以看出,L1正则化的效力更大,因此,如果数据维度很高,特征量很大,我们倾向于使用L1正则化。

  • 如果我们得目的只是简单的正则化防止过拟合,那么用L2就够了,如果L2后还是过拟合或者是在数据集上的表现很差,那就使用L1。

指定正则化的方式,默认为"l2",有以下两种取值:

  • l2:即L2正则化,参数solver可以取任意值。

正则化强度的倒数,一个大于0的浮点数,默认1.0,即正则项与损失函数的比例是1:1;

  • C越小,损失函数越小,模型对损失函数的惩罚越重,正则化效力越强,θ会被压缩得越来越小
  • 两种正则化方法下的C值如果没法确定的话,可以使用学习曲线来寻找最优的C值。

查看每个特征对应的参数,可以在正则化前后分别调用该属性来清晰地看到正则化的效果。

  1. 业务选择:一个人可以通过很多个特征来进行判别不如使用几个特征来判别的方便。
  • 如果熟悉业务,可以自己选择重要的特征;
  • 如果不熟悉业务,或特征数量巨大,那么就可以借助算法,筛选过一遍后再根据常识选择出重要的特征。
  • PCA和SVD是高效降维算法,但是其降维后具有不可解释性,所以不用;
  • 希望逻辑回归的结果能够保留原特征。
  1. 可以使用统计方法,但是没有必要
  • 逻辑回归的要求低于线性回归,不需要了解数据的总体分布和方差,也不需要排除特征间的多重共线性,但使用卡方、方差、互信息等统计方法来特征选择也可以,过滤法中的所有方法都可以用在逻辑回归中。
  • 多重共线性对线性回归的影响比较大,所以我们必须使用方差膨胀因子VIF来消除共线性;但对于逻辑回归来说不一定有用,有时我们还需要根据一些相关连的特征来增强模型效果;
  • 如果别的方法不能明显提升模型表现,并且感觉模型的共线性影响了模型效果,那统计学VIF的方法可以使用,但sklearn中没有VIF的功能。
  1. python后验思想:先得出结果,再管它的实现过程;如果模型效果跑得好,管他怎么实现的呢。

(注:尽量保留原数据上的信息,让模型在降维后的数据上拟合效果优秀;我们不考虑测试集与训练集的问题,将所有的数据全放入模型中降维。)

让模型拟合效果更好的调整方法:

  • 嵌入法的阈值,将所有特征系数低于这个阈值的特征全部筛掉;
  • 调整threshold后,SelectFromModel就不只是根据L1正则化来选择特征,而是根据属性coef_中特征的系数来选择;
  • 调整threshold的值,画其学习曲线,就可以显式观察出让模型效果最好的threshold值;- - - 但这种方法一般效果不好,画出学习曲线后,会发现如果阈值过大,被删除的特征越多,模型效果也越来越差,模型效果最好的情况下一般需要17个特征以上。
  1. 调节逻辑回归参数C,画C的学习曲线来确定最佳的C值


再细化C的学习曲线,得出:

  • 原理简单,但是比较麻烦;
  • 使用系数coef_,找出曲线由锐利变平滑的转折点,转折点之前被累加的特征都是我们需要的,转折点之后的我们都不需要;
  • 需要先对特征系数进行从大到小的排序,且确保我们知道排序后的每个系数对应的原始特征的位置,才能够正确找出那些重要的特征。因此比较麻烦,不如使用嵌入法方便。
  • 直接设定我们需要的特征个数,逻辑回归在现实中运用时,可能会有”需要5~8个变量”这种需求,包装法此时就非常方便了;
  • 具体可以参考数据预处理和特征工程那一块内容。

对于二元逻辑回归来说,求θ的方法有很多种:

sklearn中梯度下降法求逻辑回归调节最大迭代次数的参数,每一次θ都沿着梯度相反的方向以一定的步长迭代,使损失函数越来越小,直到求出使损失函数最小的θ。

使函数上升最快的方向,其反方向是使函数下降最快的方向。

逻辑回归中的损失函数:
对其自变量θ求偏导,得:

  • θj+1:第j次迭代后的参数向量;
  • θj:第j次迭代前的参数向量;

步长不是一个确定的物理距离,也不是梯度下降过程中任何距离的直接变化,而是梯度向量大小d的一个比例。

  • 步长过大,很难求出使J(θ)最小的θ;
  • 步长过小,迭代的次数特别多,电脑处理得很慢;

调用查询本次求解所需的实际迭代次数

  • max_iter过大,实际迭代次数并不需要这么多,只要找到使损失函数最小的值就立刻停止迭代。因此调用n_iter_得到的值一定会比max_iter小;
  • max_iter过小,还没找到使损失函数最小的值就停止了迭代,sklearn中就会发出如下警告:

(不管系统报不报红条,只要模型效果好就别管那些)

sklearn中提供了多种处理多分类问题的方法:
(这两种方法都要配合L1/L2正则项来实现)

  • 一对多(OvR):在sklearn中表示为"ovr",将多个类别中的一个指定为1,其余类别全指定为0;
  • 多对多(MvM):在sklearn中表示为"multinominal",将多个类别中的多个指定为1,其余类别全指定为0。

控制使用不同的求解器求解参数θ,有五种选择:
(liblinear是二分类专用,默认求解器)

告诉模型我们预测的模型是什么分类类型的,默认"auto"。

  • “ovr”:问题为二分类问题 / 使用"一对多问题"来处理多分类问题;
  • “auto”:跟分类问题和其他参数系统自己确定选用上面哪个。

如果max_iter很小,会报红条警告。

在数据中,可能有一类占很大的比例,还有一类只占很小的比例,导致误分类的代价很高。

eg:在银行要判断“一个新客户是否会违约”,通常不违约的人vs违约的人会是99:1的比例,真正违约的人其实是非常少的。这种分类状况下,即便模型要么也不做,全把所有人都当成不会违约的人,正确率也能有99%,这使得模型评估指标变得毫无意义,根本无法达到我们的“要识别出会违约的人”的建模目的。

对标签进行一定的均衡:

  • None:默认,给所有的类别同样的权重,如果只希望对样本进行均衡,不填即可;
  • ‘balanced’:误分类代价很高的时候使用,解决样本不均衡问题。

一些其它样本均衡的方法

  • 上采样(最好用):增加少数类的样本;(在下面的案例中会介绍)
  • 下采样:减少多数类的样本。
  • 评分卡(定义) 一 以分数形式衡量一个客户的信用风险大小的手段;
    (评分越高,信用越好,风险越小)
  1. 评估个人信用程度的方法:
    A、B、C、D卡,(我们这个例子中的评分卡即为A卡,又称"申请信用评级",用于相关融资类业务中新用户的主体评级)
  2. 评估企业的信用评级,按融资主体的融资用途分类的模型有:
    企业融资模型、现金流融资模型、项目融资模型等

数据分析(模型卡建立及检验)步骤

  • 现实世界中,可能会出现重复值;
  • 比较特殊的一类重复值的情况是:确实出现了两个及以上的人各项信息都一样,但是就不是同一个人,这种情况也把它当作重复值来计算;

注意:每次去重后其索引值不变,因此需要重新设置索引

  • 缺的比较多,缺了20000多条,不能全部删除;
  • 缺的比较少,只缺了4000多条,可以全部删除;

可以使用随机森林填补缺失值:“既然我可以使用A,B,C去预测Z,那我也可以使用A,C,Z去预测B”的思想来填补缺失值”

使用随机森林填补一个特征的缺失值的函数 y:完整的,没有缺失值的标签 to_fill:字符串,要填补的那一列的名称

注:如果删了一些数据,别忘了重新设置索引。

  • 异常值不一定都是错误的,有的异常值甚至是我们的重点研究对象,(eg:一个人的工资特别高),要排除的是一些不太符合实际的值(eg:一个人的年龄是负的)。
  1. 箱线法 一 只能用于特征有限的情况,如果有几百个特征又无法成功降维或特征选择不管用,还是用3σ法好;

量纲不需要统一,数据分布也不需要标准化

所用的数据都是业务员进行判断的依据,如果数据标准化过,那么原始数据对应的信息也会丢失,甚至出现业务员看不懂数据的现象。

样本不均衡问题解决方案

样本不均衡:上采样法解决

需要知道的一些分箱知识:

  • 箱子的个数不要太多,10个及以下就好;
  • 离散化连续型变量必然伴随着信息的损失,箱子越少,信息损失越大;


IV 一 代表:特征的信息及特征对模型的贡献,可以作为衡量指标。

  • N:这个特征下箱子的个数;
  • good%:箱内优质客户占整个特征中所有优质客户的比例;
  • bad%:箱内坏客户占整个特征中所有坏客户的比例;

  • 银行业中用来衡量违约概率的指标(即任务权重)。woe越大,优质客户越多;反之越少
 0.03 特征几乎不带有效信息,对模型没有贡献,这种特征可以被删除
0.03 ~ 0.09 有效信息很少,对模型的贡献度低
0.1 ~ 0.29 有效信息一般,对模型的贡献度中等
0.3 ~ 0.49 有效信息较多,对模型的贡献度较高
>=0.5 有效信息非常多,对模型的贡献超高并且可疑
  • 注:IV值并不是越大越好,要找IV的大小和箱子个数的平衡点;
  • 对特征进行分箱,在计算每个特征在每个箱子数下的woe值,利用IV的曲线,找出最合适的箱子个数

分箱要达到的效果:“组间差异大,组内差异小”

  • eg:对每个评分卡模型来说,即不同箱子的人的违约概率差距大(即woe差距大),且每个箱子内坏客户所占比例(bad%)不同;
  • 检验两个箱子的相似性的方法:卡方检验,即若卡方检验的p值较大,说明他们非常相似,可以合并为一个箱子

对一个特征进行分箱的步骤:

  1. 连续型变量→ 一组数量较多的分类型变量;eg:将几万个样本分成50组/100组
  2. 确保每个组中都要有两种类别(0/1)的变量,否则IV无法计算;
  3. 对相邻的组进行卡方检验,将p值很大的组合并,直至剩下的组数不大于设定的N;
  4. 让一个特征分别分成[2,3,4,…,20]箱,计算每个分箱情况下的IV值并可视化,找出最佳分箱个数;
  5. 分箱完毕后,计算每个箱的woe值和bad%,观察分箱效果;

上述5个步骤完成后,对每个特征都进行分箱,观察他们的IV值,由此选取最合适的特征。


并不是所有的特征都可以用这个方法来分箱,如果不能,需要自己定义分箱

计算模型的woe值并映射到原数据上



给定测试数据和标签的平均准确度作为模型的评分标准

返回的结果一般,我们可以试着使用C和max_iter的学习曲线把逻辑回归的效果调上去

从准确率来看,模型效果一般,下面看ROC曲线上的效果:

预测所提供的测试集X中样本点归属于各个标签的概率

  • 上面使用准确率和ROC曲线验证模型的预测能力;
  • 将逻辑回归转化为评分卡分数:
  1. log(odds):代表一个人违约的可能性
  1. A和B可以根据两个假设的分支带入求出,eg:

-逻辑回归预测函数的截距(/偏差);

  • 若问题是二分类问题,则intercept_具有结构(1,);



我要回帖

更多关于 i等于1 的文章

 

随机推荐