-226-
第十二章 回归分析
前面我们讲过曲线拟合问题。曲线拟合问题的特点是,根据得到的若干有关变量的
一组数据,寻找因变量与(一个或几个)自变量之间的一个函数,使这个函数对那组数
据拟合得最好。通常,函数的形式可以由经验、先验知识或对数据的直观观察决定,要
作的工作是由数据用最小二乘法计算函数中的待定系数。从计算的角度看,问题似乎已
经完全解决了,还有进一步研究的必要吗?
从数理统计的观点看,这里涉及的都是随机变量,我们根据一个样本计算出的那些
系数,只是它们的一个(点)估计,应该对它们作区间估计或假设检验,如果置信区间
太大,甚至包含了零点,那么系数的估计值是没有多大意义的。另外也可以用方差分析
方法对模型的误差进行分析,对拟合的优劣给出评价。简单地说,回归分析就是对拟合
问题作的统计分析。
具体地说,回归分析在一组数据的基础上研究这样几个问题:
(i)建立因变量
y 与自变量
m
xxx ,,,
21
L 之间的回归模型(经验公式);
(ii)对回归模型的可信度进行检验;
(iii)判断每个自变量
),,2,1( mix
i
L= 对
y
的影响是否显著;
(iv)诊断回归模型是否适合这组数据;
(v)利用回归模型对
y 进行预报或控制。
§1 数据表的基础知识
1.1 样本空间
在本章中,我们所涉及的均是样本点×变量类型的数据表。如果有
m 个变量
m
xxx ,,,
21
L ,对它们分别进行了 n 次采样(或观测),得到 n 个样本点
),,,(
21 imii
xxx L ,
ni ,,2,1 L=
则所构成的数据表
X
可以写成一个 mn
×
维的矩阵。
⎥
⎥
⎥
⎦
⎤
⎢
⎢
⎢
⎣
⎡
==
×
T
n
T
mnij
e
e
xX M
1
)(
式中
mT
imiii
Rxxxe ∈= ),,,(
21
L
, ni ,,2,1 L
=
,
i
e 被称为第
i
个样本点。
样本的均值为
),,,(
21 m
xxxx L= ,
∑
=
=
n
i
ijj
x
n
x
1
1
, mj ,,2,1 L
=
样本协方差矩阵及样本相关系数矩阵分别为
T
k
n
k
kmmij
xexe
n
sS )()(
1
1
)(
1
−−
−
==
∑
=
×
⎟
⎟
⎠
⎞
⎜
⎜
⎝
⎛
==
×
jjii
ij
mmij
ss
s
rR )(
其中