统计基础知识:关键统计概念


统计基础知识:关键统计概念

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

正如英国数学家卡尔·皮尔逊所说,统计学是科学的语法,特别适用于计算机和信息科学、物理科学和生物科学。当你开始数据科学或数据分析之旅时,具备统计知识将有助于你更好地利用数据,洞察数据背后蕴藏的深层次内容。基于这个目的,就有了这篇推文。
⚠️长文预警!但值得你一读。
本文,将涵盖以下数据科学和数据分析的统计学主题:
随机变量
概率分布函数(PDF)
均值、方差、标准差
协方差和相关性
贝叶斯定理
线性回归和普通最小二乘法(OLS)
高斯-马尔科夫定理
参数性质(偏差、一致性、效率)
置信区间
假设检验
统计显著性
第一型和第二型错误
统计检验(学生t检验、F检验)
p值及其限制
推断统计学
中心极限定理和大数定律
降维技术(PCA、FA)
如果你没有统计知识,想要从零开始了解和掌握基本的统计概念,那么本文就是为你准备的。本文也适合任何想要复习统计知识的同学。
1. 随机变量(RandomVariables)
随机变量的概念构成了许多统计学概念的基础。它的正式数学定义可能很难理解,但简单来说,随机变量是一种将随机过程的结果(例如抛硬币或掷骰子)映射到数字的方式。例如,我们可以通过随机变量X定义抛硬币的随机过程,如果结果是正面,随机变量X取值为1,如果结果是反面,随机变量X取值为0。
在这个例子中,我们有一个抛硬币的随机过程,这个实验可能会产生两种可能的结果:{0,1}。所有可能结果的集合称为实验的样本空间(samplespace)。每次重复随机过程,都被称为一个事件(event)。在这个例子中,抛硬币并得到反面作为结果是一个事件。该事件发生的概率或可能性被称为该事件的概率。事件的概率是随机变量取特定值x的可能性,可以用描述。
在抛硬币的例子中,得到正面或反面的可能性相同,即0. 5或50%。因此,我们有以下设置:
在这个例子中,事件的概率只能取值在[0,1]范围内。
统计在数据科学和数据分析中的重要性不容低估。统计提供了工具和方法,用于寻找结构并提供更深入的数据洞察。
2. 均值、方差、标准差、协方差
要理解均值、方差等许多统计主题的概念,学习总体(population)和样本(sample)的概念非常重要。总体是所有观察值(个体、对象、事件或程序)的集合,通常非常大且多样化,而样本是总体的一部分观察值的子集,理想情况下是总体的真实代表。
总体与样本。source:原作者.
考虑到整个总体的实验是不可能的,或者仅仅太昂贵,研究人员或分析人员在他们的实验或试验中使用样本而不是整个总体。为了确保实验结果可靠,并适用于整个总体,样本需要是总体的真实代表。也就是说,样本需要是无偏的。为此,可以使用统计抽样技术,如随机抽样、系统抽样、聚类抽样、加权抽样和分层抽样。
2. 1均值Mean
均值,也被称为平均值,是一组有限数字的中心值。假设数据中的随机变量X具有以下值:其中N是样本集中的观测值或数据点的数量,也就是数据频率。那么样本均值,通常用于近似估计总体均值,可以表示如下:
均值也被称为期望值,通常用E()或在顶部有一条横杠的随机变量来定义。例如,随机变量X和Y的期望值,即E(X)和E(Y),可以表示如下:
总体与样本的均值符号有区别。表示总体均值,表示样本均值。
2. 2方差Variance
方差度量数据点从平均值偏离的程度,等于数据值与平均值之间差的平方和。此外,总体方差可以表示如下:
总体与样本的方差符号有区别。表示总体方差,表示样本方差。
2. 3标准差StandardDeviation
标准差就是方差的平方根,用于衡量数据偏离其均值的程度。标准差的符号通常用希腊字母sigma表示,可以通过以下公式计算得到:通常情况下,人们更喜欢使用标准差而不是方差,因为标准差与数据点具有相同的单位,更容易进行解释。
2. 4协方差Covariance
协方差是两个随机变量联合变异的一种度量,描述了这两个变量之间的关系。它定义为两个随机变量与其均值之差的乘积的期望值。两个随机变量X和Y的协方差可以用以下公式表示,其中E(X)和E(Y)分别表示X和Y的均值。
协方差可以取负值、正值或0。正协方差表示两个随机变量趋向于同时变化,负协方差表示两个随机变量趋向于反向变化,而0表示它们不一起变化。
两变量X与Y在3种不同的协方差情况下的关系。Source:wikipedia.
3. 相关性
相关性也是衡量关系的一种方法,它同时衡量线性关系的强度和方向,用于衡量两个变量之间的关系模式。如果检测到相关性,则意味着两个目标变量的值之间存在一种关系或模式。两个随机变量X和Y之间的相关性等于这两个变量的协方差除以它们各自标准差的乘积,可以通过以下公式描述。
相关系数的值范围在-1到1之间。要记住的是,变量与自身的相关性始终为1,即Cor(X,X)=1。
在解释相关性时要注意的另一件事是,不要混淆相关性与因果关系,因为相关性不等于因果关系。即使两个变量之间存在相关性,也不能得出一个变量导致另一个变量发生变化的结论。这种关系可能是巧合的,或者第三个因素可能导致两个变量同时发生变化。
4. 概率分布函数
描述随机变量在给定范围内所有可能取值的概率以及相应的概率的函数称为概率分布函数(probabilitydistributionfunction)。每个概率函数都需要满足以下两个条件:
第一个条件说明所有概率都应该是[0,1]范围内的数,第二个条件说明所有可能概率的和应该等于1。
概率函数通常分为两类:离散型discrete和连续型continuous。
离散型的概率函数叫概率质量函数(Probabilitymassfunction,简写作PMF),它是离散随机变量在各特定取值上的概率,有时它也被称为离散密度函数。
连续型的概率函数叫概率密度函数(Probabilitydensityfunction,简写作PDF),在不致于混淆时可简称为密度函数,是一个描述这个随机变量的输出值,在某个确定的取值点附近的可能性的函数。
离散分布函数描述具有可数样本空间的随机过程.
一个概率质量函数的图像。函数的所有值必须非负,且总和为1。Source:wikipedia.
例如抛硬币的例子只有两种可能结果。连续分布函数描述具有连续样本空间的随机过程。离散分布函数的例子包括伯努利分布Bernoulli、二项式分布Binomial、泊松分布Poisson和离散均匀分布DiscreteUniform。
连续分布函数的例子包括正态分布(Normal)、连续均匀分布(ContinuousUniform)和(柯西分布Cauchy)。
以盒状图与概率密度函数展示的正态分布N(0, σ2)。Source:wikipedia.
4. 1二项分布BinomialDistribution
二项分布是指进行n次独立实验中成功的次数的离散概率分布,每次实验只有两个可能的结果,成功(概率为p)和失败(概率为q=1-p)。
概率质量函数。Source:wikipedia.
假设一个随机变量X遵循二项式分布,则在n次独立试验中观察到k次成功的概率可以通过以下概率函数来表示:二项分布在分析重复独立实验结果时非常有用,特别是如果有人对在特定误差率下达到特定阈值的概率感兴趣。
二项分布的均值和方差:
下面的图形展示了一个二项分布的例子,其中独立试验的次数为8次,每次试验成功的概率为16%。
4. 2Poisson分布
Poisson分布是指在一个固定时间内,某事件发生的次数服从泊松分布。
概率质量函数:横轴是索引k,发生次数。该函数只定义在k为整数的时候。连接线是只为了指导视觉。Source:wikipedia.
假设随机变量X服从泊松分布,则X在一个时间区间内出现k次的概率可以表示为:其中e是自然对数的底数,是事件发生率的期望值。泊松分布广泛应用于建模单位时间内发生的计数事件。
Poisson分布的期望值和方差都等于。
例如,泊松分布可用于对晚上7点到10点之间进入商店的顾客数量或晚上11点到12点之间进入急诊室的病人数量进行建模。下图显示了一个泊松分布的示例,其中我们计算到达网站的Web访问者数量,假设到达率等于7分钟。
4. 3正态分布
正态分布是一个连续的概率分布,适用于实值随机变量。
之前写过正态分布的文章,移步阅读。一文掌握正态分布(提供练习材料)
正态分布,也称为高斯分布,是社会和自然科学中常用于建模的最流行的分布函数之一,例如,它用于模拟人们的身高或考试成绩。假设随机变量X服从正态分布,那么它的概率密度函数可以表示如下。正态分布的均值与方差:其中,参数是分布的均值,也称为位置参数,参数是分布的标准差,也称为尺度参数。数值是一个数学常数,约等于3. 14。
下图显示了一个正态分布的示例,其均值为0(),标准差为1(),被称为标准正态分布,它是对称的。
5. 贝叶斯定理
贝叶斯定理,通常称为贝叶斯法则,是概率和统计学中最强大的规则之一,以英国著名的统计学家和哲学家托马斯·贝叶斯命名。
贝叶斯定理是一种强大的概率法则,将主观性的概念引入了统计学和数学的世界,而在这个世界中,一切都是关于事实的。它描述了一个事件的概率,基于可能与该事件相关的先前条件信息。
例如,如果得到冠状病毒或COVID-19的风险已知会随着年龄增长而增加,那么贝叶斯定理允许更准确地确定已知年龄的个体的风险,通过对年龄进行条件约束,而不仅仅是假设该个体属于整个人口。
条件概率的概念在贝叶斯理论中起着核心作用,它是一个事件发生的概率,已知另一个事件已经发生。贝叶斯定理可以用以下表达式描述,其中X和Y分别代表事件X和事件Y:
:在事件或条件Y发生或为真的情况下,事件X发生的概率
:在事件或条件X发生或为真的情况下,事件Y发生的概率
和:分别是观察事件X和Y的概率。
在前面的例子中,得到冠状病毒(X)的概率,在某个年龄(Y)条件下是,它等于在得到冠状病毒的情况下处于某个年龄的概率,乘以得到冠状病毒的概率,除以处于某个年龄的概率。
6. 线性回归
当一个变量对另一个变量有直接影响时,就会出现因果关系。当两个变量之间的关系是线性的时,线性回归是一种统计方法,可以帮助模拟一个变量(自变量)单位变化对另一个变量(因变量)值的影响。
因变量通常称为响应变量或被解释变量,而自变量通常称为回归变量或解释变量。当线性回归模型基于单个自变量时,该模型称为简单线性回归,而当模型基于多个自变量时,则被称为多元线性回归。
简单线性回归可以用下面的表达式来描述:在线性回归中,Y是因变量,X是独立变量,是截距,是未知的常数,是斜率系数或与变量X对应的未知常数参数,而是误差项,即当估计Y值时模型所产生的误差。
线性回归的主要思想是通过一组配对的(X,Y)数据找到最佳拟合直线,即回归线。
其中一个线性回归应用的例子是对企鹅的翼展长度对体重的影响进行建模,如下图所示。
使用三个独立变量的多元线性回归可以描述为以下表达式:
6. 1普通最小二乘法
Theordinaryleastsquares(OLS)是一种估计线性回归模型中未知参数(如和)的方法。该模型基于最小二乘原则,最小化观察到的因变量与由独立变量的线性函数预测的值(通常称为拟合值)之间差的平方和。因变量Y的实际值与预测值之间的差被称为残差,OLS的目的是最小化残差平方和。
数据点(红色)、使用最小二乘法求得的最佳解(蓝色)、误差(绿色)。Source:wikipedia.
这个优化问题的结果是下面的OLS估计值,它们也被称为系数估计。
一旦确定了简单线性回归模型的这些参数,响应变量的拟合值可以计算如下:
6. 2标准误差
残差或估计的误差项可以如下确定:重要的是要注意误差项和残差之间的差异。误差项从未被观察到,而残差是从数据中计算出来的。
OLS为每个观察值估计误差项,但不估计实际的误差项。因此,真实的误差方差仍然是未知的。此外,这些估计值还受到抽样不确定性的影响。这意味着,在实证应用中,我们将永远无法从样本数据中确定这些参数的确切估计值。但是,我们可以通过使用残差来计算样本残差方差来估计它,如下所示。这个样本残差方差的估计有助于估计估计参数的方差,通常表示如下:
这个方差项的平方根称为估计标准误差,是评估参数估计精度的关键组成部分。它用于计算检验统计量和置信区间。标准误差可以表示如下:
6. 3OLS假设
OLS估计方法假设以下条件需要被满足才能获得可靠的预测结果:
线性假设说明模型在参数上是线性的。
随机样本假设说明样本中的所有观察值都是随机选择的。
外生性假设说明独立变量与误差项不相关。
同方差性假设说明所有误差项的方差是恒定的。
无多重共线性假设说明没有独立变量是恒定的,也没有独立变量之间的精确线性关系。
6. 4参数属性
在前述假设OLS条件得到满足的情况下,系数β0和β1的OLS估计值是BLUE和一致的。———高斯-马尔科夫定理
这个定理强调了OLS估计的特性,其中BLUE代表最佳线性无偏估计器BestLinearUnbiasedEstimator。
偏差
估计器的偏差是其期望值与被估计参数的真实值之间的差异,可以表示为:当我们说估计器是无偏的时,我们的意思是偏差等于零,这意味着估计器的期望值等于真实的参数值,即:
无偏性并不保证任何特定样本得到的估计值等于或接近β。它的意思是,如果我们从总体中重复抽取随机样本,然后每次计算估计器的值,那么这些估计值的平均值会等于或非常接近β。
效率
高斯-马尔科夫定理中的“最佳”一词与估计器的方差有关,称为效率。一个参数可能有多个估计器,但具有最小方差的估计器被称为高效估计器。
一致性
一致性一词与样本量和收敛性相关。如果估计器在样本量变得非常大时收敛于真实参数,那么这个估计器就被认为是一致的,即:所有这些属性都适用于OLS估计,如高斯-马尔科夫定理所总结的那样。换句话说,OLS估计具有最小的方差,它们是无偏的、参数线性的,而且是一致的。这些特性可以通过使用先前做出的OLS假设进行数学证明。
6. 5置信区间ConfidenceIntervals
置信区间是包含真实总体参数的一定预定概率范围,称为实验的置信水平,它是通过使用样本结果和误差限来获得的。
误差限(MarginofError)
误差限是样本结果与使用整个总体时的结果之间的差异。
置信水平(ConfidenceLevel)
置信水平描述实验结果的确定性水平。例如,95%的置信水平意味着如果对同一实验进行100次重复,那么这100次试验中的95次将导致类似的结果。
注意,置信水平在实验开始之前定义,因为它将影响实验结束时误差限的大小。
OLS估计的置信区间
正如早先提到的,简单线性回归的OLS估计,即截距β0和斜率系数β1的估计值,受到抽样不确定性的影响。然而,我们可以为这些参数构建置信区间,该区间将在所有样本中包含这些参数的真实值的95%。也就是说,β的95%置信区间可以解释为:
置信区间是一组值,无法拒绝5%拒绝规则的假设检验。
置信区间有95%的机会包含β的真实值。
OLS估计的95%置信区间可以如下构建:该区间基于参数估计,该估计的标准误差和值为1. 96的常数,该常数代表对应于5%拒绝规则的误差限。这个值是使用正态分布表确定的,稍后在本文中将进行讨论。下图说明了95%置信区间的概念:
Source:wikipedia.
需要注意的是,置信区间也取决于样本大小,因为它是基于标准误差计算的。
7. 统计假设检验StatisticalHypothesistesting
在统计学中,检验假设是一种测试实验或调查结果以确定其意义的方法。基本上,我们通过计算结果发生的几率来测试获得的结果是否有效。如果结果没有意义,则实验也没有可靠性。假设检验是统计推断的一部分。
7. 1零假设和备择假设NullandAlternativeHypothesis
首先,您需要确定您希望测试的论点,然后您需要制定零假设和备择假设。测试可能有两种可能的结果,并根据统计结果,您可以拒绝或接受陈述的假设。
作为经验法则,统计学家往往将需要拒绝的假设版本或公式放在零假设下,而将可接受和期望的版本放在备择假设下。
7. 2统计显著性Statisticalsignificance
让我们看看前面提到的例子,其中使用线性回归模型来研究企鹅的翼展长度(自变量)对体重(因变量)的影响。我们可以用以下统计表达式来表示这个模型:然后,一旦估计出OLS系数的估计值,我们可以制定以下零假设和备择假设,以测试翼展长度是否对体重有显著的影响:
其中H0和H1分别表示零假设和备择假设。如果拒绝零假设,这意味着翼展长度的增加会直接影响体重。
鉴于参数估计值β1描述了自变量翼展长度对因变量体重的影响,可以重新表述这个假设如下:其中H0表示的参数估计值等于0,即翼展长度对体重的影响不显著,而H1则表示的参数估计值不等于0,表明翼展长度对体重的影响具有统计显著性。
7. 3第I型和第II型错误TypeIandTypeIIErrors
在进行统计假设检验时,需要考虑两种概念性的错误:第I型错误和第II型错误。当错误地拒绝零假设时,就会发生第I型错误,而当错误地未拒绝零假设时,则会发生第II型错误。混淆矩阵可以帮助清晰地可视化这两种错误的严重程度。
作为一个经验法则,统计学家往往将假设的版本放在零假设下,需要被拒绝,而可接受和期望的版本则在备择假设下陈述。
7. 4统计检验
一旦建立了零假设和备择假设并确定了检验的假设,下一步是确定哪种统计检验是适当的,并计算检验统计量。是否拒绝零假设可以通过将检验统计量与临界值进行比较来确定。这种比较显示观察到的检验统计量是否比定义的临界值更极端,它可能有两种可能的结果:
检验统计量比临界值更极端→可以拒绝零假设
检验统计量不如临界值极端→无法拒绝零假设
临界值基于预先指定的显著性水平(通常选择为5%)和检验统计量所遵循的概率分布类型。临界值将该概率分布曲线下的区域分为拒绝区域和非拒绝区域。有许多用于测试各种假设的统计检验。

在本文中,我们将看一下其中两个统计检验。
学生t检验
学生t检验是最简单和最流行的统计检验之一,可以用于测试各种假设,特别是当处理主要感兴趣的假设时,即寻找单个变量的统计显着影响的证据。
t检验的检验统计量遵循学生t分布,可以计算如下:其中,分子中的h0是正在测试的参数估计值相对于其值的值。因此,t检验统计量等于参数估计值减去假定值除以系数估计的标准误差。在前面所述的假设中,我们想要测试翼鳍长度是否对体重有统计显着影响。可以使用t检验执行此测试,在这种情况下,h0等于0,因为斜率系数估计值与值0进行比较。
有两个版本的t检验:双侧t检验和单侧t检验。你需要使用哪个版本的测试完全取决于你想要测试的假设。
当假设检验的零假设和备择假设类似于以下示例时,可以使用双侧或双尾t检验来检验相等与不相等的关系:双侧t检验有两个拒绝区域,如下图所示:

在这个版本的t检验中,如果计算的t统计量太小或太大,零假设就会被拒绝。

当假设检验的零假设和备择假设类似于以下示例中的正/负与负/正的关系时,可以使用单侧或单尾t检验:
单侧t检验具有单个拒绝区域,根据假设方向,拒绝区域要么在左侧,要么在右侧,如下图所示:

在这个版本的t检验中,如果计算的t统计量小于/大于临界值,则拒绝零假设。
F检验
F检验是另一种非常流行的统计检验,常用于测试多个变量的联合统计显着性的假设。这种情况发生在你想要测试多个自变量对一个因变量是否具有统计显著影响时。以下是可以使用F检验测试的统计假设的一个例子:其中Null表明,对应于这些系数的三个变量在统计上联合不显着,而Alternative表明,这三个变量在统计上联合显着。F检验的测试统计量遵循F分布,可以如下确定:
其中,SSRrestricted是限制模型的残差平方和,该模型从数据中排除了在零假设下被认为是不显著的目标变量;SSRunrestricted是非限制模型的残差平方和,该模型包括所有变量;q表示联合检验不显著的变量数,N是样本量,k是非限制模型中的总变量数。在运行OLS回归后,SSR值和F统计量的值将显示在参数估计值旁边。以下是一个MLR模型输出的示例,其中标记了SSR和F统计量的值。
Source:StockandWhatson.
F检验具有如下所示的单个拒绝域:
Source:UofMichigan.
如果计算出的F统计量大于临界值,则可以拒绝零假设,这表明自变量在统计上是联合显著的。拒绝规则可以表示为:
7. 5P-值(P-Values)
P-值是另一种快速确定是否拒绝或支持零假设的方法。P-值是在零假设下发生条件的概率。换句话说,假设零假设成立,观察到的结果至少与检验统计量一样极端的概率。P-值越小,反对零假设的证据越强,表明可以拒绝零假设。
P-值的解释取决于选择的显著性水平。通常使用1%,5%或10%的显著性水平来解释p值。因此,可以使用这些测试统计量的p值来测试相同的假设,而不是使用t测试和F测试。
下面的图显示了一个具有两个自变量的OLS回归的示例输出。在此表格中,下划线标记了t检验的p值,用于测试class_size变量的参数估计的统计显著性,以及F检验的p值,用于测试class_size和el_pct变量参数估计的联合统计显著性。
Source:StockandWhatson.
与class_size变量相关的p值为0. 011。将此值与显著性水平1%或0. 01、5%或0. 05、10%或0. 1进行比较,则可以得出以下结论:
0. 011>0. 01→在1%的显著性水平上无法拒绝t检验的零假设
0. 011<0. 05→在5%的显著性水平上可以拒绝t检验的零假设
0. 011<0. 10→在10%的显著性水平上可以拒绝t检验的零假设
因此,这个p值表明class_size变量的系数在5%和10%的显著性水平上具有统计学意义。与F检验相对应的p值为0. 0000,由于0小于所有三个截止值;0. 01、0. 05、0. 10,我们可以得出结论,在所有三种情况下都可以拒绝F检验的零假设。这表明class_size和el_pct变量的系数在1%、5%和10%的显著性水平上具有联合统计显著性。
p值的限制
虽然使用p值有许多好处,但它也有局限性。即,p值取决于关联的强度和样本大小。如果效应的强度很小且统计上不显著,p值仍可能显示出显著的影响,因为样本大小很大。相反,如果样本大小很小,效应可能很大,但无法满足p<0. 01、0. 05或0.10的标准。
8. 推论统计学
推论统计学使用样本数据对产生样本数据的总体进行合理的判断。它用于研究样本内变量之间的关系,并预测这些变量如何与更大的总体相关。
大数定律(LLN)和中心极限定理(CLM)在推论统计学中具有重要作用,因为它们表明在数据足够大的情况下,实验结果不受原始总体分布形状的影响。收集的数据越多,统计推断就越准确,因此生成的参数估计就越准确。
8. 1大数定律(LLN)
假设X1,X2,…,Xn都是独立同分布的随机变量,也称为独立同分布或i. i.d,其中所有的X都有相同的均值μ和标准差σ。随着样本大小的增长,所有X的平均值等于均值μ的概率趋近于1。大数定律可以概括如下:
随着样本量的增大,样本均值越来越接近总体均值。
8. 2中心极限定理(CLT)
假设X1,X2,…,Xn都是独立同分布的随机变量,也称为独立同分布或i. i.d,其中所有的X都有相同的均值μ和标准差σ。随着样本大小的增长,X的概率分布趋近于具有均值μ和方差σ-平方的正态分布。中心极限定理可以概括如下:
换句话说,当你有一个均值为,标准差为的总体,并从中进行足够大的随机采样时,这些样本均值的分布将近似于正态分布。
9. 降维技术
降维是将数据从高维空间转换为低维空间的转换,使得这个低维度数据的表示尽可能地包含原始数据的有意义特性。
随着大数据的普及,对于这些降维技术的需求也随之增加,以减少不必要的数据和特征。一些流行的降维技术包括主成分分析、因子分析、典型相关分析和随机森林。
9. 1主成分分析(PCA)
主成分分析(PrincipalComponentAnalysis,PCA)是一种经常用于降低大数据集维度的降维技术,通过将大量变量转换为一个包含原始大数据集中大部分信息或变异性的较小变量集合。
进一步理解主成分分析,移步:
Python离群点检测算法–PCA
PCA,LCA,SVD降维技术详细对比
假设我们有一个由p个变量X1,X2,……,Xp组成的数据集X,其中e1,……,ep为特征向量,λ1,……,λp为特征值,特征值显示了特定数据字段在总方差中解释的方差。PCA的思想是创建新的(独立)变量,称为主成分,它们是现有变量的线性组合。第i个主成分可以表示为:然后,使用“ElbowRule”或“KaiserRule”,您可以确定最优主成分数量,以便在不丢失太多信息的情况下对数据进行最佳总结。
此外,还要注意每个主成分解释的总变异比例(heproportionoftotalvariation,PRTV),以决定是否有益于包括或排除它。第i个主成分的PRTV可以使用特征值计算如下:
ElbowRule
“ElbowRule”或“ElbowMethod”是一种启发式方法,用于从主成分分析结果中确定最优主成分数量。该方法的思想是将解释的变异性作为主成分数量的函数绘制出来,并选择曲线的“肘部”作为最优主成分数量。以下是这样一个散点图的示例,其中将PRTV(Y轴)绘制在主成分数量(X轴)上。肘部对应于X轴值为2,这表明最优主成分数量为2。
Source:MultivariateStatisticsGithub.
9. 2因子分析FactorAnalysis(FA)
FactorAnalysis(FA)或称因子分析,是另一种用于降维的统计方法。它是最常用的相互依赖技术之一,当相关变量集显示出系统性相互依赖性并且目标是找出创建共性的潜在因素时,就会使用它。假设我们有一个包含p个变量(X1,X2,…,Xp)的数据X。FA模型可以表示如下:其中,X是[ pxN]矩阵,其中p个变量和N个观测值,µ是[ pxN]人口平均矩阵,A是[ pxk]共同因子载荷矩阵,F[ kxN]是共同因子矩阵,u[ pxN]是特定因子矩阵。换句话说,因子模型是一系列多重回归,从不可观察的共同因子fi的值中预测每个变量Xi:
每个变量都有k个自己的共同因子,并且这些与单个观测值的因子载荷矩阵相关联:在因子分析中,因子被计算为最大化组间方差,同时最小化组内方差。它们是因子,因为它们将潜在变量分组。与PCA不同,FA需要对数据进行归一化,因为FA假设数据集遵循正态分布。
“Statisticsisthegrammarofscience.”KarlPearson

长按👇关注-数据STUDIO-设为星标,干货速递


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录