At the last

At the last#

至此，所有内容你都学完了。恭喜！让我们复习一下这些内容。当然接下来的内容也是考试重点考察内容。

考题构造#

总构造：5+12 题。其中：

选择题 3.5*12
综合题 58

注：multi-choice 是从多个选一个

模型研究#

对数据绘制图形，评价图形中数据变化的趋势

什么样的趋势，自变量和因变量的关系
选择合适的模型进行拟合（包括 lm 和 glm）

要求会写不同模型的代码、拟合函数。注意不要忘了分布的书写
残差三分析：同分布、正态检验、异常值
模型本身的数据分析（summary(model)）
- 公式
- t 检验
  
  t-value 含义：预估变量值 - 假设H_0（假设能接受的该变量值） / 标准差
  
  由 t-value 和自由度一起分析得到 p-value，从而得出我们能否接受该假设。（对于三十几行以内的数据而言，t 绝对值大于 1.96 就基本等价于 p 小于 0.05，大于95%置信区间）当然零假设本身就落在95%置信区间也可以。
  
  但是我们的summary里面是设定的零假设为0。
- p 检验
  
  p-value：大于等于 0.05 则可以接受零假设，小于 0.05 不能接受零假设
- r 方
  
  误差：模型解释的偏差+观测的误差
  
  r 方即模型能解释误差的百分比，模型能解释的误差越少，就说明数据越不受控，不能直接拒绝。
- 参数的95%置信区间
  
  含义：哪一个解释更有用，解释是什么？
- 自由度
  
  原数据有多少行：残差自由度 + 参数变量个数（零模型自由度加一也行，但一般不用）
预测 predict

代码里参数有两个，prediction预测个体，confidence预测均值（个体预测范围更大）

注意有时还要套用exp（看y有没有变形）
method and assumption checks：问题是什么，数据什么情况，拟合什么具体模型（解释单变量、多变量在模型里的含义），r方是多少
executive summary：解释拟合参数的含义（解释参数都需要变形，每单位参数的变化，导致预测值变化多少、变成原来多少倍），回答题目问题

其他知识点#

卡方#

什么是 1 - 卡方？

代码中一般是 1 - pchisq(36.59, 18) 这样的。

The p-value for testing the null hypothesis that the data are 泊松/二项 distributed, the p-value is below 0.05 (above 0.05), rejecting the null hypothesis.

the null hypothesis is that the binomial variance assumption holds, the residual deviance is chi-squared with 18 degrees of freedom if this assumption is true.

in this case, the p-value is below 0.05, rejecting the null hypothesis.

log 使用条件#

数值数据（曲线拟合log，使用后变成直线）
分类数据（箱线图观察，log后宽度变成一致了就是好的）

公式书写#

正态分布：\(E(Exam_i) = \beta_0 + \beta_1 Test_i + \epsilon\) where \(\epsilon \sim N(0, \sigma^2)\)
泊松分布：\(log(Exam_i) = \beta_0 + \beta_1 Test_i + \epsilon\) where ...

At the last

Contents

At the last#

考题构造#

相关模型#

lm model (1-12 chapter)#

glm model (13-16 chapter)#

模型研究#

其他知识点#

卡方#

log 使用条件#

公式书写#