正态性检验多少叫大数据库(2023年最新解答)-PingCAP

正态性检验多少叫大数据库(2023年最新解答)

网友投稿 579 2023-12-14

导读：本篇文章首席CTO笔记来给大家介绍有关正态性检验多少叫大数据库的相关内容，希望对大家有所帮助，一起来看看吧 sas中多少个变量算是大样本为什么 30 个样本就称为「大样本」，而不是 40 或 50？。

正态性检验多少叫大数据库(2023年最新解答)

1347 人关注2 条评论写回答慧航谢邀我保证不打死写书的大样本理论是什么？n\rightarrow \infty，也就是样本量趋向于无穷的时候30\approx \infty?究竟多少数据是大样本？这个真的很难说。

首先，你有多少个参数需要估计？我有29个参数，你只有30个样本，这也能叫大样本？实际情况是当你有29个参数的时候，你会过度拟合数据，而且得到的参数估计偏差很大其次，你用的什么统计方法？我猜数理统计书上这么写仅仅是针对特殊情况的特殊模型，暗含特殊假设吧？不同统计方法的收敛速度可能差别很大的，很多情况下可能根本不是\sqrt{n}-consistent 的估计量。

比如我做一个最简单的一元非参数回归，收敛速度可能是\sqrt{n^{4/5}} ，收敛速度可以看看图：最下面，也就是收敛速度最快的是\sqrt{n}，接下来分别是收敛速度可能是\sqrt{n^{4/5}} ，\sqrt{n^{4/6}} 。

分别代表着一维、二维、三维的非参数估计的收敛速度你看看在n=30这个点上差别有多大最后，就算你的数据是服从正态的，而且就是为了计算一个均值，我们来看，\sqrt{n}\left( \bar{x} -\mu \right) \sim N\left( 0,\sigma^2\right) ，你是不是还要考虑数据的方差有多大啦？如果数据方差很大，为了达到某个精度，恐怕几百个样本都不够。

当然，这还是数据服从正态所以你有精确的小样本特性的时候，非正态30个样本？呵呵了特别现在都大数据时代了，数据量还是问题？数据量不到100我是绝对不敢拿出来的，更何况我们做东西动辄几千几万的样本这个30有没有道理？我猜是没有道理的。

===========================回应一下@李二公子t分布是一个很好的想法，但是这里并不能回避一个很严重的问题什么问题呢？首先我们得先来谈一下为什么我们需要大样本理论因为在很多情况下，有限样本的统计量的分布我们是不知道的。

正态分布是一个特例，在正态分布的情况下，我们可以得到样本均值的精确分布（得益于正态分布相加还是正态分布），进而得到假设检验时候的t分布但是！很多情况下，数据并不是正态分布的，比如，是卡方分布，那么小样本情况下我们很难得到其样本均值的精确分布，所以我们需要大样本理论，因为如果样本足够大，那么其均值渐进的服从正态分布（z值）。

这里你要注意，精确的t分布是一定要假设正态分布的，否则你上面不是正态，下边不是卡方，你还不能证明上面和下面独立，怎么能证明出是t分布呢？而即使是在大样本下，大家发现做假设检验的时候对自由度进行惩罚一般来说检验统计量表现的更好，所以大家大样本条件下还是会用t分布。

所以这里个人感觉用t分布来说明30是大样本有点逻辑上的问题本来大样本提出来是为了解决小样本非正态总体的情况下，精确分布不知道的问题，而t分布是在假设了正态之后才能精确的得出，所以两者前提条件都不一样，这样很难说服别人。

这里给大家举个栗子我从\chi^2\left( 3 \right) 抽出30个样本出来，计算均值，重复这个过程1000次，这样我就得到了这些均值的分布：其中红色的是t(30)的概率密度函数，红色的中间夹着一条蓝色的线，是样本量为30的正态均值的分布，可见的确跟t分布是一样的。

但是大家看下面那条蓝色的线，是样本量为30的卡方分布的均值的分布，是不是差别很大？你还敢说在非正态的条件下，30是大样本么？附Matlab Code:clear N=1000; ave=zeros(N,1); for i=1:N rn=randn(30,3); rn=sum(rn.^2,2); ave(i)=(mean(rn)-3)/std(rn)*sqrt(30); end ksdensity(ave) x=-5:0.01:5; t=tpdf(x,30); hold on plot(x,t,r*); hold off ave=zeros(N,1); for i=1:N rn=randn(30,1); ave(i)=mean(rn)*sqrt(30); end hold on ksdensity(ave); hold off

R语言对于10万以上的大数据怎么做正态性检验省事一点的话就ks.test(x,pnorm)虽然可能没有shapiro.test那么powerful，不过这么大的数据应该差不多或者qqnorm(x);qqline(x)。

不过不是正式的检验要不就看看nortest包或者其他包里的函数数据的正态性检验对于我们得到的一组数据，我们日常生活中遇到最多的，应用范围最广的就是正态分布如果要确定数据是否为正态分布，就要进行正态性检验。

检验数据分布常用的检验方法有χ²检验，偏度-峰度检验以及夏皮罗-威尔克法较为有效随机变量X的偏度和峰度是指的是X的标准化变量[X-E(X)]/D(X)½的三阶矩和四阶矩（PS：关于数据的描述：随机变量的0阶矩为总概率1，1阶矩为数据的期望，2阶矩为表示方差，3阶矩表示偏度，4阶矩表示峰度）。

设X1，X2，.....,Xn是来自总体X的样本，则v1,v2的矩估计量分别是，若总体X为正态变量，则可证明当n充分大时，近似的有相关正态性检验方法有K-S检验，明日再补充相关软件包在python scipy.stats.kstest中

KS检验是基于样本累积分布函数来进行判断的可以用于判断某个样本集是否符合某个已知分布，也可以用于检验两个样本之间的显著性差异KS检验是基于累积分布函数的，如果要进行分布检验，以正态分布为例，首先会画出典型正态分布的累积分布图。

然后绘制出数据的累积分布图，通过比较二者最大差值是否大于边界值来判断边界值和D的关系，如果D小于边界值，则可以认为样本的分布符合已知分布，否则不可以除KS检验方法外，还有AD检验和W检验可以用来检测数据的分布特性：

如何判断数据是否符合正态分布？常见正态性检验方法总结

正态性检验结果大数据看左边大数据是大于100吗正态性检验结果大数据看左边大数据是大于100的正态性检验就是看数据（针对计量资料而言）符不符合正态分布，这决定接下来的数据分析将采用参数检验还是非参数检验，方法使用错误可能对结果分析产生很大的影响。

≤100的样本量选择夏皮洛-威尔克的分析结果（S-W检验），显著性P＜0.05，说明数据不符合正态分布P＞0.05，说明数据符合正态分布当样本量＞100时，则选择左边柯尔莫戈洛夫-斯米诺夫检验（K-S检验）。

结语：以上就是首席CTO笔记为大家整理的关于正态性检验多少叫大数据库的相关内容解答汇总了，希望对您有所帮助！如果解决了您的问题欢迎分享给更多关注此问题的朋友喔～

麒麟v10 上部署 TiDB v5.1.2 生产环境优化实践

579 2023-12-14

正态性检验多少叫大数据库(2023年最新解答)

麒麟v10 上部署 TiDB v5.1.2 生产环境优化实践

高成本云服务？TiDB 帮你省钱

零售业数据库选型与迁移ToC系统实践大规模场景应用

推荐文章

HTAP 还可以这么玩？丨TiDB 在 IoT 智慧园区的应用

新特性解析丨TiDB 资源管控的设计思路与场景解析

TiDB赋能保险业-首个全栈自主核心保单系统成功投产

首个云原生、分布式、全栈国产化银行核心业务系统投产上线丨TiDB × 杭州银行

TiDB 在社交场景的解决方案实践

电商数据技术栈，在海量数据增长下如何实现实时与全量兼得？

金融行业数据库的选择

TiDB 在智能制造中的应用实践

TiDB 在全球头部物流企业计费管理系统的应用实践

PingCAP与教育部教育管理信息中心合作，推动普惠教育数字化转型

友情链接

热评文章

TiDB 中标杭州银行核心系统数据库项目

TiDB 首批通过信通院 HTAP 数据库基础能力评

PingCAP 与 Wisconsin-Madiso

PingCAP 成为中国唯一入选 Forrester

TiDB 走进东软集团，共建医疗数字化基石

共享开源技术，共建开放生态丨平凯星辰余梦杰出席 20