- 函数c():用来把一些数据组合成向量
- nchar():主要使用来返回字符长度 length():则是用来返回字符数量
- mode():指变量的类型如:数值型、字符型、逻辑型等 class():指变量的类别如:矩阵、列表、数据框等 typeof():对变量类型的细分
- 函数cbind() 和rbind() 把向量和矩阵拼成一个新的矩阵。 cbind() 把矩阵横向合并成一个大矩阵(列方式),而rbind()是纵向合并(行方式)。
prod():向量元素乘积,返回所有参数中元素乘积
sort():排序(或命令)一个向量或因素(部分)升序或降序排序
- 矩阵求逆:solve()函数;奇异矩阵(行列式为0)没有逆矩阵;
- t()函数:矩阵行列转换/转置矩阵
- diag()函数:提取或替换一个矩阵的对角线,或构造一个对角矩阵
- rnorm()函数(正态分布 ):产生一系列的随机数,随机数个数,均值和标准差都可以设定
rnorm(n, x, y): 产生n个平均数为x,标准差为y的数。 默认情况下,平均数为0, 标准差为1- eigen()函数:求解矩阵的特征值与特征向量
在R语言中,数据框(dataframe)组织数据的结构与矩阵相似,但是其各列的数据类型可以不相同。
一般情况,数据框的每列是一个变量,每行是一个观测样本。虽然,数据框内不同的列可以是不同的数据模式,但是数据框内每列的长度必须相同。
- summary()函数: 获取描述性统计量,可以提供最小值、最大值、四分位数和数值型变量的均值,以及因子向量和逻辑型向量的频数统计等。
- Hmisc包的describe()函数:返回每列数据的前五个最大最小值,中位数,以及四分位数和四分之三位数,缺失值的个数等
- psych包中的describe()函数:可以计算非缺失值的数量、平均数、标准差、中位数、截尾均值、绝对中位差、最小值、最大值、值域、偏度、峰度和平均值的标准误差
- pastecs包中的stat.desc()的函数:可以计算种类繁多的描述性统计量。
若basic=TRUE(默认值),则计算其中所有值、空值、缺失值的数量,以及最小值、最大值、值域,还有总和。
若desc=TRUE(同样也是默认值),则计算中位数、平均数、平均数的标准误、平均数置信度为95%的置信区间、方差、标准差以及变异系数。
最后,若norm=TRUE(不是默认的),则返回正态分布统计量,包括偏度和峰度(以及它们的统计显著程度)和Shapiro–Wilk正态检验结果- str()函数:显示对象的数据结构及内容;查看数据框中每个变量的属性
- attributes()函数:可以提取对象除长度和模式以外的各种属性
- fivenum()函数:返回某列数据的最大最小值,中位数,以及四分位数和四分之三位数
- MASS包中的aggregate函数: aggregate(x,by,FUN):按照要求把数据打组聚合,然后对聚合以后的数据进行加和、求平均等各种操作。
- psych包中的describeBy函数:对指定的列进行数据分析
- doby包中的summaryby函数:对分组后的数据进行处理
- 散点图:plot()函数
- 直方图:hist()函数
- 柱状图:barplot()函数
- 箱形图:boxplot()函数:又称为盒须图、盒式图、盒状图或箱线图,它能显示出一组数据的最大值、最小值、中位数、及上下四分位数。
箱子的上下横线为样本的25%和75%分位数;箱子中间的横线为样本的中位数;上下延伸的直线称为尾线,尾线的尽头为最高值和最低值- 星相图:stars()函数:雷达图的多元表达形式,每个变量在图中都占据着一定的位置
- 脸谱图:fackes()函数:用五官的宽度和高度来描绘数值,人对脸谱高度敏感和强记忆,适合较少样本的情况
- 茎叶图:stem()函数
- QQ图: qqnorm()函数;qqline()函数:可用于判断是否正态分布,直线的斜率是标准差,截距是均值,点的散布越接近直线,则越接近正态分布
- 密度图:density()函数
- 热力图:heatmap()函数
- 散点图集:pairs()函数
For 循环是一种重复控制结构,允许有效地编写需要执行特定次数的循环
R语言的for循环是特别灵活的,因为它们不限于整数,或者输入中的偶数。 我们可以传递字符向量,逻辑向量,列表或表达式。
While循环一次又一次地执行相同的代码,直到满足停止条件。
while循环的关键点是循环可能永远不会运行。 当条件被测试并且结果为false时,循环体将被跳过,while循环之后的第一条语句将被执行。
- Repeat循环:重复执行相同的代码,直到满足停止条件。
如果要跳出循环,可以使用break命令,若要跳至循环中的下一轮迭代,需要使用next命令;
如果在循环中不包括break命令,R代码将会是一个无限循环。
获取描述性统计量,可以提供最小值、最大值、四分位数和数值型变量的均值,以及因子向量和逻辑型向量的频数统计等。
【推荐1】某校高三(1)班全体女生的一次数学测试成绩的茎叶图和频率分布直方图都受到不同程度的破坏,但可见部分如图所示,据此解答如下问题:
(1)求高三(1)班全体女生的人数;
(2)求分数在之间的女生人数,并计算频率分布直方图中对应的矩形的高.
【推荐2】某高校在2021年的自主招生考试成绩中随机抽取100名学生的笔试成绩,按成绩分组,得到的频率分布表如下表示.
(1)求频率分布表中n,p的值,并补充完整相应的频率分布直方图;
(2)为了能选拔出最优秀的学生,高校决定在笔试成绩高的第3、4、5组中用分层抽样的方法抽取6名学生进入第二轮面试,则第3、4、5组每组各抽取多少名学生进入第二轮面试?
(3)在(2)的前提下,学校决定从6名学生中随机抽取2名学生接受甲考官的面试,求第4组至少有1名学生被甲考官面试的概率.