面板数据分析中标准误的估计修正-PingCAP

面板数据分析中标准误的估计修正

网友投稿 2042 2023-04-26

面板数据分析中标准误的估计修正

众所周知，在进行标准二乘线性无偏估计的时候，我们假设残差项是独立同分布的（independent and identically distributed, i.i.d.）。而一旦此假设在实际数据中被打破，则估计就会出现偏误（ bias ）。Peterson指出，在过去的很多实证金融文献中，很多研究者实际上并没有正确地选择合适的方法，根据残差项与时间或者企业的相关性来修正标准误，或者它们只是盲目地跟从在他们之前其他文献中的方法来修正偏误，而事实上这可能完全是互相误导。错误的标准误会导致在判断变量显著性的时候给出不可靠甚至错误的结论，从而使得研究的可信度大打折扣。Peterson在文章当中对不同的面板数据结构所应采用的标准误估计方法做出了考察和比较。

在下文中，我将延续Peterson的文章思路，针对不同面板数据的结构进行总结与归纳。为编辑方便以及提高文章可读性，我省略了数理推导，而改用文字直接阐述逻辑及结论。

1. 只具有“企业固定效应”（firm fixed effect）的面板数据

首先我们明确什么叫企业固定效应。面板数据一般是二维的，具有时间和对象两种要素。对象可以是个人、企业、国家等等。为了简化文义，我们将对象改称为企业，因为这也是金融实证数据中最为常见的对象。企业固定效应指的是，在面板数据的时间维度上，每一个个体企业都具有一个特有的特征能影响被解释变量，而且这个特征会在整个时间维度上伴随着这个企业，并且独立于其他企业，换言之，不受其他企业影响。比如某个企业的管理能力是伴随着这个企业的一个特征，它不受其他企业影响，并且在有限的时间维度内可以假设不变。

Peterson指出，在这种情况下，OLS的标准误会被低估，因为每一个额外观测值所能提供的真实信息量要小于OLS模型所假设具有的信息量。在这种情况下，研究者应采用群集标准误（clustered standard errors），并且根据企业来群集。简单地讲，企业群集标准误把同一个企业的变量在不同的时间点可能存在的相关性考虑进去了，从而提供一个修正了的标准误。Peterson的论证指出，企业群集标准误在处理具有企业固定效应的面板数据中的有效性是突出且可靠的。

除此之外，采用其他方法来估计标准误可能会有潜在的问题产生。比如，OLS估计的标准误会是有偏的，至于偏误多少，则取决于残差和变量存在多大的相关性。又如，用Fama-MacBeth两阶段回归的方法也会产生偏误（标准误被低估），而且因为F-M方法的计算手段的关系，F-M会比OLS具有更大的偏误。F-M的方法是被设计用于考虑横截面相关的（在同一时点上不同观测对象之间的相关性），而非序列相关（同一观测对象在不同时点上的相关性），因此用在这里不合适。再如，用Newey-West的方法也会造成标准误的低估。Newey-West的方法在于只考虑在同一群集内滞后期的残差之间的相关性，而***的滞后期是比面板数据所提供的时间维度小1。Peterson的实验发现，随着滞后期的上升，Newey-West的偏误会逐渐减小，但因为***滞后期的限制，其永远无法消除估计上的偏误。

2. 只具有“时间效应”（time effect）的面板数据

同样的，先明确什么是时间效应。简而言之，指的是在同一时点上的不同企业的变量之间存在着相关性。这可能由比如宏观经济状况等某种外部因素所导致的，而这种因素会影响同一时点上的所有企业，但在跨时期中会出现独立变化。

Peterson发现，当面板数据存在时间效应时，普通最小二乘估计依然会低估标准误。而根据时间来群集的群集标准误则可以提供相对准确的估计，但这只局限于当时间维度（即面板数据可提供的时点数）很大的时候。比如，当数据中只有很少的几个年份的时候，群集标准误也显得不够准确。

Peterson指出，在这种仅有时间效应的情况下，最理想的方法应当是采用Fama-MacBeth两阶段回归法来估计标准误。简而言之，先对每一个企业的时间序列进行回归，得到beta系数后，再将beta系数作为已知变量再进行横截面数据的回归。这种方法的要义在于，通过***步来得到每个企业受各个变量影响而导致的超额收益，而其中还有一部分没有观测到的影响因素则受时间变化而变化，因此在第二步的回归中，对同一时点上的所有企业做横截面数据回归，从而找出这些因素的影响，而这就是时间效应之所在。

3. 同时具有“企业效应”和“时间效应”的面板数据

根据前文所述，如果研究者有足够的把握选取某一种方法（群集标准误或者F-M法）来估计标准误，她必须要保证面板数据只存在企业效应或者时间效应，而非同时存在两种效应。但往往这是一种太过于理想化的假设。

Peterson指出，一种最通常的方法是：对某一个维度使用虚拟变量（dummy variable），然后使用另一维度的群集标准误。一般在研究中比较常见的是，对时间取虚拟变量，然后做企业的群集标准误，因为一般的面板数据都具有许多个企业，但未必有足够多的时间点用来做时间群集标准误。

再者，也可以在两个维度上做群集，只要每个维度的数量足够多。在这种方法上，Thompson（2006）提出了一种简便的算法，即：

V_{firmtime}=V_{firm}+V_{time}-V_{white}

二维标准误 = 企业群集标准误 + 时间群集标准误 – 稳健标准误

其中稳健标准误即为怀特标准误（White standard errors），也是在处理异方差时最常用的稳健标准误。

4. 结语

以上是面板数据中最基本的几种效应的处理方法，但在实证中，有些情况会比较复杂。比如Peterson提到，有些时候企业效应是暂时性的，即随着时间的推延，某些影响因素会渐渐消退。广义线性估计（GLS）可以比较有效地估计随机效应模型，但是如果残差间的相关性随着时间变化而消退，那么GLS的估计可能也是有偏的。对此，Peterson提出使用调整了的F-M方法来进行处理，但前提是残差间相关性的消退应比较迅速，并且面板数据的时间维度要足够充足。

此外在实证研究中，研究者还可以对使用不同群集所产生的标准误的估计进行简单的比较，从而判断出数据中主要的效应是在哪个维度上，然后再采用合适的方法对其进行修正处理。

参考文献：

Peterson在其个人网站上提供了在Stata及SAS中获得文中提到的各种标准误估计的代码：Programming Advice

36大数据知识图谱：

面板数据，即Panel Data，也叫“平行数据”，是指在时间序列上取多个截面，在这些截面上同时选取样本观测值所构成的样本数据。

其有时间序列和截面两个维度，当这类数据按两个维度排列时，是排在一个平面上，与只有一个维度的数据排在一条线上有着明显的不同，整个表格像是一个面板,所以把panel data译作“面板数据”。但是,如果从其内在含义上讲,把panel data译为“时间序列—截面数据” 更能揭示这类数据的本质上的特点。也有译作“平行数据”或“TS-CS数据（Time Series – Cross Section）”。

麒麟v10 上部署 TiDB v5.1.2 生产环境优化实践

2042 2023-04-26

面板数据分析中标准误的估计修正

黄东旭解析 TiDB 的核心优势

黄东旭关于基础软件产品价值的思考

麒麟v10 上部署 TiDB v5.1.2 生产环境优化实践

推荐文章

HTAP 还可以这么玩？丨TiDB 在 IoT 智慧园区的应用

新特性解析丨TiDB 资源管控的设计思路与场景解析

TiDB赋能保险业-首个全栈自主核心保单系统成功投产

首个云原生、分布式、全栈国产化银行核心业务系统投产上线丨TiDB × 杭州银行

TiDB 在社交场景的解决方案实践

电商数据技术栈，在海量数据增长下如何实现实时与全量兼得？

金融行业数据库的选择

TiDB 在智能制造中的应用实践

TiDB 在全球头部物流企业计费管理系统的应用实践

PingCAP与教育部教育管理信息中心合作，推动普惠教育数字化转型

友情链接

热评文章

TiDB 中标杭州银行核心系统数据库项目

TiDB 首批通过信通院 HTAP 数据库基础能力评

PingCAP 与 Wisconsin-Madiso

PingCAP 成为中国唯一入选 Forrester

TiDB 走进东软集团，共建医疗数字化基石

共享开源技术，共建开放生态丨平凯星辰余梦杰出席 20

面板数据分析中标准误的估计修正

微信扫一扫：分享

推荐文章

友情链接

热评文章