简单看一下作业的介绍:
案例 1. 多重线性回归
活动类型: 团体
交割日期:2021年12月12 日西班牙时间截止时间 23:59
最大长度: 20 张幻灯片(每个团队成员至少一张)
目标:开发一个多元线性回归模型,该模型将小组选择的数据库中的三个变量(一个因变量和两个自变量)联系起来。最少 20 次观察。我建议您留下两个观察结果来进行预测。使用 R。
结构和内容:
- 简介:数据库的目标和简要说明(来源和选择数据库的原因)
- 规格。所选主题的简要理论发展。变量和数学函数
- 基础数据处理(即,它将允许回答:是否存在非典型数据?是否存在缺失数据?变量之间是否存在关系?是否需要消除任何变量?)以及对所提出模型的估计和估计参数的解释
- 模型的验证或确认
- 预测
- 脚本
要开展这项活动,我建议您遵循已解决的【销售广告费用模型】的步骤。
最高评分 10 分,分配如下:
内容 最高评价 介绍 1 分 规格 1 分 基本处理、估计和解释 3分 查看 2.5分 预言 1 分 脚本 1.5分
数据来自:https://www.kaggle.com/econdata/climate-change
设置程序内的语言:
|
|
导入所需要的包
|
|
读取数据并进行预览和检查数据类型
|
|
|
|
创建一些变量
|
|
设置日期为索引和没有日期的 datafram,并查看最大值、最小值、方差等等
|
|
|
|
|
|
创建每个变量的时间序列,这里的 png()
和 dev.off()
用于将生成的图片保存到本地,你也可以删除它直接在 R 语言程序中预览
由于作业需要,我创建了四张图片,你也可以将四张表格放在一张图片上。
|
|
创建所有变量之间的关系图
|
|
创建每个变量之间的散点图
|
|
创建直方图
|
|
创建箱线图来检测异常值
|
|
查看相关系数
|
|
|
|
建立线性模型,并打印参数估计的结果,然后进行回归方程的显著性检验
- T检验
- F检验
- 调整后的 Adjusted R²
|
|
最后,我们通过的回归参数的检验与回归方程的检验,得到最后多元线性回归方程为:
Temp = -4.2676862 + 0.0076848 * CO2 + 0.0007349 * CH4 + 0.0014314 * N2O
|
|
在得到的回归模型进行显著性检验后,还要在做残差分析(预测值和实际值之间的差),检验模型的正确性,残差必须服从正态分布N(0,σ^2)。直接用plot()函数生成4种用于模型诊断的图形,进行直观地分析。
|
|
逐步回归分析
|
|
|
|
计算 R²
|
|
|
|
进行预测
|
|
|
|
我们得到了多元线性回归方程的公式,就可以对数据进行预测了。我们可以用R语言的predict()函数来计算预测值y0和相应的预测区间,并把实际值和预测值一起可视化化展示。
|
|
|
|
至此,一份简单的多重线性回归就做完了,可以看到我们预测的结果非常的垃圾,模型需要进一步优化,但是我不会,所以就这样凑合交了
至于结果,脚本部分当然是满分啦,其他介绍部分不是我完成的,所以我就不放上来了
El trabajo está bastante bien. Os sugiero para otros trabajos que: numeréis las páginas, pongáis título y número a las tablas y gráficas, mejorar redacción y ser más explícitos en la redacción. (por favor revisad comentarios dentro del texto). Puntuación según apartados:
Introducción (0.25/1)
Especificación (1/1)
Tratamiento, estimación e inter. (2.5/3)
Verificación (2/2.5)
Predicción (1/1)
Script(1.5/1.5)