第一章 计算机基础知识
世界上第一台计算机ENIAC(诞生于1946年美国宾夕法尼亚大学,是世界上第一台电子离散变量自动计算机)
计算机之父----冯·诺依曼.
归纳了的主要特点如下:
(1)计算机的程序和程序运行所需要的数据以二进制形式存放在计算机的存储器中。
(2)程序和数据存放在存储器中,即程序存储的概念。计算机执行程序时,无需人工干预,能自动、连续地执行程序,并得到预期的结果。
根据冯·诺依曼的原理和思想,决定了计算机必须有输入、存储、运算、控制和输出五个组成部分。
【知识点2】计算机发展经历了四个阶段
【知识点3】微型计算机
1971年,第一片微处理器诞生,标志进入了微型机阶段。
【知识点4】我国计算机的发展
1958年 我国研制成功第一台电子计算机。
银河、曙光、神威是我国研制的高性能巨型计算机。
【知识点5】计算机的特点、应用和分类
(1)高速、精确的运算能力
(2)准确的逻辑判断能力
计算机辅助设计(CAD)、计算机辅助制造(CAM)、计算机辅助教育(CAI)、计算机辅助技术(CAT)等。
(1)按计算机处理数据的类型可以分为:模拟计算机、数字计算机、数字和模拟计算机。
(2)按计算机的用途可以分为:通用计算机和专用计算机。
(3)按计算机的性能、规模和处理能力可将计算机分为巨型机、大型通用机、微型计算机、工作站、服务器等。
计算机采用二进制编码,只有“0”和“1”两个数码。
计算机中数据的最小单位是位(bit);存储容量的基本单位是字节(Byte)。8个二进制位称为1个字节;字长是计算机的一个重要指标,直接反映一台计算机的计算能力和计算精度。字长越长,计算机的数据处理速度越快。
1、多位数码中每一位的构成方法以及从低位到高位的进位规则称为进位计数制(简称数制)。
2、如果采用R个基本符号(例如0,1,2,……R-1)表示数值,则称R数制,R称该数制的基数,而数制中固定的基本符号称为“数码”。处于不同位置的数码代表的值不同,与它所在位置的“权”值有关。
3、计算机中常用的几种进位计数制的表示
【知识点9】进制之间转换
1、十进制数转换为二进制数
方法:基数连除、连乘法
原理:将整数部分和小数部分分别进行转换。
整数部分采用基数连除法,小数部分采用基数连乘法,转换后再合并。
整数部分采用基数连除法,除基取余,先得到的余数为低位,后得到的余数为高位。
小数部分采用基数连乘法,乘基取整,先得到的整数为高位,后得到的整数为低位。
2、二进制数与八进制数的相互转换
二进制数转换为八进制数:将二进制数由小数点开始,整数部分向左,小数部分向右,每3位分成一组,不够3位补零,则每组二进制数便是一位八进制数。
八进制数转换为二进制数:将每位八进制数用3位二进制数表示。
3、二进制数与十六进制数的相互转换
二进制数与十六进制数的相互转换,按照每4位二进制数对应于一位十六进制数进行转换。
用一定位数的二进制数来表示十进制数码、字母、符号等信息称为编码
ASCII 码(美国信息交换标准交换代码)
有两个版本:7位码和8位码。
国际通用是7位 ASCII 码,即用7位二进制数表示一个字符的编码。
要记住的几个字符的编码值:
a 字符编码为1100001,对应十进制为97,则 b 的编码值为98。
A 字符编码为1000001,对应十进制为65,则 B 的编码值为66。
0数字字符编码为0110000,对应十进制为48,则1的编码值为49。
注意:计算机内部用一个字节存放一个7位 ASCII 码,最高位置0。
最初由 APPLE 公司发起制定的通用多文字集,后被 Unicode 协会开发为表示几乎世界上所有书写语言的字符编码标准。
1980年 我国颁布了国家汉字编码标准
GB 2312-80 全称是《信息交换用汉字编码字符集》简称国标码把常用6763个汉字分成两级,一级汉字3755个,二级汉字3008个。
用两个字节表示一个汉字,每个字节只有7位,与 ASCII 码相似。
国标码:由4位16进制数组成
区位码:将 GB 2312-80的全部字符集组成一个94×94的方阵,每一行称为一个“区”,编号为0l~94;每一列称为一个“位”,编号为0l~94,这样得到 GB 2312-80的区位图,用区位图的位置来表示的汉字编码,称为区位码。由4位10进制数组成,前两位为区号,后两位为位号。
国标码=区位码(转换为16进制)+2020 H。
GBK 编码—扩充汉字编码共收录21003个汉字,也包含 BIG5(港奥台)编码中的所有汉字。
汉字输入码:为将汉字输入计算机而编制的代码称为汉字输入码,也叫外码。
汉字内码:汉字内码是为在计算机内部对汉字进行存储、处理的汉字编码,它应满足汉字的存储、处理和传输的要求。
汉字的内码=汉字的国标码+(8080)H
【知识点11】多媒体技术
1、媒体:指文字、声音、图象、动画和视频等内容。
多媒体技术是指能够同时对两种或两种以上的媒体进行采集、操作、编辑、存储等综合处理的技术。
多媒体技术处理的是数字信号,并具有交互性、集成性、多样性、实时性等特征。
(2)图象数字化-BMP 文件、GIF 文件等
【知识点12】计算机病毒及其防治
1、计算机病毒一般具有寄生性、破坏性、传染性、潜伏性和隐蔽性的特征。
2、计算机病毒的分类:
(5)Internet病毒(网络病毒)
一套完整的计算机系统由软件系统和硬件系统两部分组成。
软件系统是为运行、管理和维护计算机而编制的各种程序、数据和文档的总称。
【知识点2】软件系统及其组成
系统软件中最重要且最基本的是操作系统。它是最底层的软件,控制所有计算机上运行的程序并管理整个计算机的软硬件资源,是计算机裸机与应用程序及用户之间的桥梁。常用操作系统有Windows、Linnx、DOS、Unix、MacOS等。
【知识点3】计算机语言
1、概念:人与计算机“沟通”使用的语言
机器语言:直接用二进制代码表示指令系统的语言
汇编语言:是一种把机器语言“符号化”的语言
汇编语言源程序:用汇编语言写的程序
目标程序:翻译后的机器语言程序
汇编程序:将源程序翻译成目标程序的软件
高级语言(算法语言):具有严格的语法和语义规则。
编译:将源程序一次翻译成目标程序。在经过链接便可执行
解释:将源程序逐句翻译、逐句执行的。
【知识点4】微型计算机的组成
构成:运算器、控制器、若干个寄存器和高速缓存。
性能指标:直接决定了整台机器的性能、字长和时钟主频。
分类:主存储器和辅助存储器
(1)主存储器(放在主机内部的,用于存放当前运行的程序和数据。)
a、随机存取存储器(RAM)
RAM 是 PC 的主要存储区域;它允许读写数据;
b、只读存储器(ROM)
它包含可以访问和读取但不能修改的程序与数据;
2)高速缓存(Cache)
用于临时存储频繁使用的信息以加快访问速度;
三级 Cache:主板使用的
(2)辅助存储器(外存储器)
b、一次性写入光盘 CD-R
(1)分类:阴极射线管显示器(CRT)和液晶显示器(LCD)
分辨率:整个屏幕上像素的数目=列*行
显示存储器(简称显存)
显示器的尺寸:用显示屏的对角线来衡量
6、微型计算机的主要技术指标
(1)字长:CPU 一次能同时处理二进制数据的位数。
(2)时钟主频:指 CPU 的时钟频率,单位 GHz。
(3)运算速度:指每秒钟所能执行加法指令数目,常用 MIPS 表示。
(4)存储容量:主要指内存的存储容量。
(5)存取周期:指 CPU 从内存储器中存取数据所需要的时间。
【知识点5】计算机的硬件组成
五个功能部件:输入设备、运算器、存储器、控制器、输出设备其中运算器和控制器,合称中央处理器,简称 CPU。
功能:对二进制数码进行算术运算或逻辑运算。
构成:由一个加法器、若干个寄存器和一些控制线路组成。
衡量性能指标:字长和速度。
功能:指挥整个机器各个部件自动、协调工作。
构成:指令寄存器、译码器、时序节拍发生器、操作控制部件、指令计数器。
(1)机器指令:计算机可以真正“执行”的命令。
机器指令构成:操作码+操作数
操作码、源操作数(或地址)、目的操作数
(2)指令的执行过程:
1)根据程序计数器里的内容到存储器中读取当前要执行的指令,同时把他放到指令寄存器中。
3)控制器根据译码器的输出,按一定顺序产生执行该指令的所有控制信号。
4)在控制信号的作用下,使各个部件完成相应的工作。
功能:用来存储当前要执行的程序、数据及结果,具有存数和取数功能。
存数:指向存储器里“写入”数据
取数:指从存储器里“读取”数据
访问:读写操作统称对存储器访问
内存储器(内存):CPU 可以直接访问其里的数据。
外存储器(外存):CPU 不可直接访问其里的数据,只有先调入内存方可使用。
4、输入/输出设备(I/0 设备)
功能:向计算机输入命令、程序、数据等信息。把这些信息转换为计算机能识别的二进制代码。
例子:键盘、鼠标、扫描仪、手写板、麦克、照相机、摄像机、游戏操作杆、条形码阅读器、光学字符阅读器、触摸屏、光笔等。
功能:将计算机处理后的各种内部格式信息转换为人们能识别的形式表达出来。
例子:显示器、打印机、绘图仪、音响等。
5、计算机的结构-各部件的连接方式
总线:是一组连接各个部件的公共通信线。
数据总线:传输数据信号的公共通路
地址总线:传输地址信号的公共通路
控制总线:传输控制信号的公共通路
就是【现在开始准备来不来得及】
【现在如何备考才最有效】
老师这里再次给出明确回复
关键看你能刷多少必考原题
而我们的必考原题真的不多
用我们给大家指出的冲刺策略
你真的能快速通过考试!
因为这是最有效、最省时的通关捷径了
只刷必考原题就能通过考试
请到我们的职教平台免费下载
线性回归的任务:构造预测函数z来映射输入的特征矩阵x和标签值y的线性关系;
注:通过函数z,线性回归使用输入的特征矩阵X来输出一组连续型的标签值y_pred,以完成各种预测连续型变量的任务(比如预测产品销量,预测股价等等)。
线性回归的核心:找出模型的参数θ,最著名的方法是最小二乘法。
联系函数:将连续型变量转化为离散型变量的函数。
形似几率取对数的本质是线性回归z,因此逻辑回归又叫"对数几率回归"。
y(x):本质上不是概率,却拥有着概率的性质,因此被当作概率来使用。
y(x)与1-y(x):可以看成一对正反例,y(x)是某样本标签被预测为1的概率,1-y(x)是某样本标签被预测为0的概率,y(x)/(1-y(x))是样本i的标签被预测为1的相对概率。
注:使用最大似然法和概率分布函数推导出逻辑回归的损失函数,并且把返回样本在标签取值上的概率当成是逻辑回归的性质来使用,每当我们诉求概率的时候,我们都会使用逻辑回归。
求解能够让模型对数据拟合程度最高的参数θ的值,以此构建预测函数y(x),然后将特征矩阵X输入预测函数来计算出逻辑回归的结果y。
(又叫logit回归,最大熵分类器)
逻辑回归与决策树及随机森林的区别:
损失函数一衡量参数θ优劣的评估指标,求解最优参数的工具
注:没有"求解参数"需求的模型没有损失函数,eg:KNN,决策树。
损失函数由极大似然估计推导出:
逻辑回归追求:能够让J(θ)取min的参数组合;
注:对于J(θ),x、y是已知参数,θ是自变量,求导(或偏导)时要注意对θ求导(或偏导)。
(模型拟合好,损失小的目的,我们每时每刻都希望 的值等于1)
(在这个函数上,追求最小值就能让模型在训练数据上的拟合效果最好,损失最低)
(因为极力追求J(θ)的最小值,让模型在训练集上表现最有,但是在测试集上表现却不好,即出现了过拟合的现象,为了对逻辑回归中的过拟合进行控制,可以正则化。)
(正则项/惩罚项:即J(θ)后加的范式)
L1正则化可以将参数θ中的元素压缩到0;
(在L1正则化的过程中,携带信息量小的、对模型贡献不大的特征的参数会比携带信息量大的、对模型贡献大的特征的参数更快地变为0,因为L1正则化其实是一个特征选择的过程,掌管了参数的"稀疏性"。L1正则化也正是基于此来防止过拟合,由于L1正则化这个性质,逻辑回归的特征选择可以由embedded嵌入法来完成。)
L2正则化不会将参数θ中的元素压缩到0,但是会让元素变得非常小(趋于0)。
由此可以看出,L1正则化的效力更大,因此,如果数据维度很高,特征量很大,我们倾向于使用L1正则化。
如果我们得目的只是简单的正则化防止过拟合,那么用L2就够了,如果L2后还是过拟合或者是在数据集上的表现很差,那就使用L1。
指定正则化的方式,默认为"l2",有以下两种取值:
正则化强度的倒数,一个大于0的浮点数,默认1.0,即正则项与损失函数的比例是1:1;
查看每个特征对应的参数,可以在正则化前后分别调用该属性来清晰地看到正则化的效果。
(注:尽量保留原数据上的信息,让模型在降维后的数据上拟合效果优秀;我们不考虑测试集与训练集的问题,将所有的数据全放入模型中降维。)
让模型拟合效果更好的调整方法:
再细化C的学习曲线,得出:
对于二元逻辑回归来说,求θ的方法有很多种:
sklearn中梯度下降法求逻辑回归调节最大迭代次数的参数,每一次θ都沿着梯度相反的方向以一定的步长迭代,使损失函数越来越小,直到求出使损失函数最小的θ。
使函数上升最快的方向,其反方向是使函数下降最快的方向。
逻辑回归中的损失函数:
对其自变量θ求偏导,得:
步长不是一个确定的物理距离,也不是梯度下降过程中任何距离的直接变化,而是梯度向量大小d的一个比例。
调用查询本次求解所需的实际迭代次数
(不管系统报不报红条,只要模型效果好就别管那些)
sklearn中提供了多种处理多分类问题的方法:
(这两种方法都要配合L1/L2正则项来实现)
控制使用不同的求解器求解参数θ,有五种选择:
(liblinear是二分类专用,默认求解器)
告诉模型我们预测的模型是什么分类类型的,默认"auto"。
如果max_iter很小,会报红条警告。
在数据中,可能有一类占很大的比例,还有一类只占很小的比例,导致误分类的代价很高。
eg:在银行要判断“一个新客户是否会违约”,通常不违约的人vs违约的人会是99:1的比例,真正违约的人其实是非常少的。这种分类状况下,即便模型要么也不做,全把所有人都当成不会违约的人,正确率也能有99%,这使得模型评估指标变得毫无意义,根本无法达到我们的“要识别出会违约的人”的建模目的。
对标签进行一定的均衡:
注意:每次去重后其索引值不变,因此需要重新设置索引
可以使用随机森林填补缺失值:“既然我可以使用A,B,C去预测Z,那我也可以使用A,C,Z去预测B”的思想来填补缺失值”
使用随机森林填补一个特征的缺失值的函数 y:完整的,没有缺失值的标签 to_fill:字符串,要填补的那一列的名称注:如果删了一些数据,别忘了重新设置索引。
所用的数据都是业务员进行判断的依据,如果数据标准化过,那么原始数据对应的信息也会丢失,甚至出现业务员看不懂数据的现象。
需要知道的一些分箱知识:
IV 一 代表:特征的信息及特征对模型的贡献,可以作为衡量指标。
0.03 特征几乎不带有效信息,对模型没有贡献,这种特征可以被删除
0.03 ~ 0.09 有效信息很少,对模型的贡献度低
0.1 ~ 0.29 有效信息一般,对模型的贡献度中等
0.3 ~ 0.49 有效信息较多,对模型的贡献度较高
>=0.5 有效信息非常多,对模型的贡献超高并且可疑
分箱要达到的效果:“组间差异大,组内差异小”
对一个特征进行分箱的步骤:
上述5个步骤完成后,对每个特征都进行分箱,观察他们的IV值,由此选取最合适的特征。
并不是所有的特征都可以用这个方法来分箱,如果不能,需要自己定义分箱
给定测试数据和标签的平均准确度作为模型的评分标准
返回的结果一般,我们可以试着使用C和max_iter的学习曲线把逻辑回归的效果调上去
从准确率来看,模型效果一般,下面看ROC曲线上的效果:
预测所提供的测试集X中样本点归属于各个标签的概率
-逻辑回归预测函数的截距(/偏差);