[原创]计量经济学学习笔记2--随机样本的线性回归、OLS估计

这里只有作者精心编写的研究经历!
回复
zhuowens father
帖子: 2
注册时间: 2019年11月14日, 22:23

#1 [原创]计量经济学学习笔记2--随机样本的线性回归、OLS估计

未读文章 zhuowens father » 2020年7月21日, 02:35

我们想研究员工的一些特征和员工平均月工资之间的关系,其中:员工工龄(用x1表示),员工性别(用x2表示),员工加班次数(用x3表示),员工业绩(用x4表示),员工平均月工资(用y表示) 

我们认为(x1,x2,x3,x4)这组变量和y之间存在线性关系,表示为:

1595268718(1).png
1595268718(1).png (8.53 KiB) 查看 986 次
1595268718(1).png
1595268718(1).png (8.53 KiB) 查看 986 次


[img]file:///C:/Users/ZHIHEN~1/AppData/Local/Temp/msohtmlclip1/01/clip_image002.png[/img]  注意:1.这个公式表述的是总体,而不是样本的情况!就好像我们知道对任何已知的速度v和时间t而言,其距离s都等于v*t一样,这个公式就揭露了(x1,x2,x3,x4)这组变量和y之间的最终关系。 



 这里出现的所有项均为已知的,真实存在的。


 这里的(β0…βk0)是真实存在的系数,他们是已存在的,但未知的。


 这里的ui 也是已知的,真实存在的干扰项(disturbance term),但同样也是未知的。这里的(xiyi)是总体中的每一个个体,就好比13亿中的每一个人,记住是每一个,所有的人。对于总体中的每一个个体,只要把(xi, yi)代入上式,这个等号都能成立。 



回顾上一篇所说的“样本”和“总体”的区别,在这里,我们假设因为某种原因(可能是耗时耗力),我们无法获取公司所有员工的全部信息,取而代之的是我们只获得了一部分的抽样样本,这是一组截面数据,这组数据描述的是2020年某公司部分员工的一些信息。变量包括员工工龄(x1),员工性别(x2),员工加班次数(x3),员工业绩(x4,2020年员工平均月工资(y) 



同样的,因为这组样本是出自总体的,他们当然也满足上面的线性等式。我们最终的目的是:只要给定一组任意的(x1,x2,x3,x4),我们就能近似预测这个员工的月均工资y。比如给定(x1,x2,x3,x4=1234)我们想知道y是多少。 为了达成这个目的,我们的目的就是估算,预测等式中的未知量,这个等式中的未知量有哪些呢?




答案是β和u,真实的系数β和干扰项u都是构成这个等式最重要的元素,只有知道这些,我们才能让这个等式成立。就好像回答下面这个问题:
5*b+u=1
 
这里还需要区分β0b,这也是十分容易混淆的点,β0是总体的真实值,可以理解为真正反映总体关系的系数,而b是我们用计量方法估计出来的数,打个比方,灯(b)和太阳(β0)都能发光,如果太阳(β0)是原本就存在的东西,那么灯(b)就是我们用科学技术制造出来的模拟太阳(β0)的东西,在某种程度上,灯可以替代太阳。



如何让这个等式成立?答案可以有无数种,比如b=1u=-4; b=2u=-8…… 如果对方程不加以约束,看起来任意的(bu)都可以帮助我们在给定(x1,x2,x3,x4)的情况下预测一个y,但这样做毫无意义,为了找到合适且接近总体真实情况,我们需要对方程加以约束:
 

[img]file:///C:/Users/ZHIHEN~1/AppData/Local/Temp/msohtmlclip1/01/clip_image004.png[/img]
1595268853(1).png
1595268853(1).png (3.13 KiB) 查看 986 次
1595268853(1).png
1595268853(1).png (3.13 KiB) 查看 986 次


此约束又称零条件均值,若该条件成立,我们可以称自变量xi 为外生的(exogenous 



此外,由于(xi, yi)是从总体中抽出的样本,回顾上一章节所讲的,为了能使样本正确反映总体,应满足独立同分布(independent and identically distributed),有了这个假设,我们可以通过推导如下:


E(yi | xi)=β10+β20 x2i+ ...+βk0 xki +
E(ui | xi)

E(yi | xi)=β10+β20 x2i+ ...+βk0 xki +0

E(yi | xi)=xi' β (矩阵形式)

注:E(xi | xi)=xi


[img]file:///C:/Users/ZHIHEN~1/AppData/Local/Temp/msohtmlclip1/01/clip_image006.jpg[/img]这里β0是总体的参数,它描述的是当其他条件不变时,xi的变化如何影响y的变化。为了防止歧义,此处我们还要加入一个约束:[img]file:///C:/Users/ZHIHEN~1/AppData/Local/Temp/msohtmlclip1/01/clip_image008.png[/img]这个假设主要有两个含义:1.每个自变量都存在有限且正的方差 2.变量之间不存在相互的线性表达(防止多重共线性(multicollinearity))这个约束保证了矩阵E(xi xi’)存在逆矩阵,这是为了后续的推导顺利进行的假设。 总结一下:xy的线性关系是真实存在的,为了得到xy之间的真实关系β的近似估计b,我们需要满足三个假设:
  1. [img]file:///C:/Users/ZHIHEN~1/AppData/Local/Temp/msohtmlclip1/01/clip_image004.png[/img]
    1595268853(1).png
    1595268853(1).png (3.13 KiB) 查看 986 次
    1595268853(1).png
    1595268853(1).png (3.13 KiB) 查看 986 次

    2. 
11.png
11.png (4.92 KiB) 查看 986 次
11.png
11.png (4.92 KiB) 查看 986 次


    3.   样本满足独立同分布



 有了这三个条件,我们求出唯一的估计值b,使用的估计方法叫做最小二乘法(Ordinary Least Square



OLS 是计量计经学种最基础的估计方法,对于OLS, 我们有很多种理解方法,在这里我介绍其中一种。


不管是何种的理解方法,都会从“使SSR最小“这一目标开始:

 
 
77.png
77.png (10.27 KiB) 查看 986 次
77.png
77.png (10.27 KiB) 查看 986 次




[img]file:///C:/Users/ZHIHEN~1/AppData/Local/Temp/msohtmlclip1/01/clip_image010.png[/img]我们想象一个游戏,游戏的规则是谁使得SSR最小,谁就获胜,这个游戏有很多个参赛者,他们都有一个共同的名称,叫β。


注:这里我们要区分β0,β和b,可能有些易混淆,但很重要!


可以这么理解,β0是真实的系数,位置的,需要等待大家去估计预测的数


β是众多参与估计β0的“参赛者“,他们就好像模仿者和本尊之间的关系


b则是用特定方法估计出来的结果,可以这么理解,b是在众多参赛者β中获胜的,最像本尊β0的那个参赛者。


比赛总要有一个规则,而这个规则就是使残差平方和(SSR)最小。

88.jpg

[img]file:///C:/Users/ZHIHEN~1/AppData/Local/Temp/msohtmlclip1/01/clip_image012.jpg[/img]从上面定义SSR的方程出发,推导如下:[img]file:///C:/Users/ZHIHEN~1/AppData/Local/Temp/msohtmlclip1/01/clip_image014.jpg[/img]


99.jpg



这意味着,我们可以用样本中的(xiyi)来求出唯一的,使得SSR最小的,在所有参赛者β中模仿β0最像的b

这同时意味着,我们可以用b带到原来反映总体xiyi关系的方程中去,用b来代替β0,那么对于随便给定的xi,我们就可以通过这个方程去估计一个yi了。


当然,最优估计量b并不是那么容易找的,它需要满足一些条件,大致上可以用上述的三个假设概括,但他有一个计量上的专有名词,叫做高斯-马尔可夫定理。


高斯-马尔科夫定理由5个假设, 以下摘自百度:

1.Assumption MLR.1linear in parameters): 假设一要求所有的母集团参数(population parameters)为常数,用来保证模型为线性关系。即如果母集团方程为y=a+b1x1+b2x2+...+bkxk+u, 所有的a, b1,b2...bk必须为常数。同时u为无法检测的误差项,即实验过程中模型没有包含的因素。


2. Assumption MLR.2 (Random sampling)假设二: 假设我们有n个调查的样本,那么这n个样本必须是从母集团里面随机抽样得出的。以假设一的方程为例,{xi1,xi2, xi3.....xik,yi): i=1,2,3...n}3. Assumption MLR.


3 No perfect collinearity)假设三:在样本(母集团)中, 没有独立变量(independent variable)是常数,并且独立变量之间不能有完全共线性。(根据矩阵方程的定义,方程会无解)


4. Assumption MLR.4 (Zero conditional mean)假设四: 母集团方程的误差项的均值为 0,并且均值不受到独立变量的影响,可以表示为:E(U/ X1, X2...Xk)=05.Assumption MLR.


5 (Homoscedasticity): 假设五:同方差性, 误差项u的方差不受到独立变量的影响为一个固定不变的值,可以表示为: Var(u/X1,X2...Xk)=σ 高斯--马尔可夫定理的意义在于,当经典假定成立时,我们不需要再去寻找其它无偏估计量,没有一个会优于普通最小二乘估计量。


也就是说,如果存在一个好的线性无偏估计量,这个估计量的方差最多与普通最小二乘估计量的方差一样小,不会小于普通最小二乘估计量的方差
” 



也就是说,当上述的五个假设成立的时候,使用OLS方法估算出来的b就是最接近β0的了。 



高斯-马尔可夫定理和前面讲到的三个假设是有区别的,这个区别就在于高斯马尔可夫定理的第五点:同方差假设。 前面的三定理是没有涵盖的。 



同方差假设要求误差项u的方差的一个固定不变的数,然而这在现实中几乎是不太可能发生的。如果这个假设不满足,我们是否还能认为OLS方法估计出来的结果是最好的呢? 



可以,因为我们由一个定理可以帮助我们,这个定理叫做Large Sample Properties(大数定理),利用大数定理,我们可以证明,只要在样本数量足够大的情况下,只要样本满足三定理(即使同方差条件不满足),我们仍能得到:b是β0的一致估计。

Link:
Hide post links
Show post links


回复