5 种被严重低估的统计检验


5 种被严重低估的统计检验

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

如果你的工具箱里只有t检验和方差分析(ANOVA),那么你可能会错过数据中隐藏的关键模式——尤其是在面对非正态数据、异常值、时间趋势或重复测量时。
本文中,云朵君将和大家一起与学习5种强大但被严重忽略的统计检验,并在免疫学(TCR/BCR分析)、金融(股票价格)和体育科学(运动员表现)中列举示例以展示其能够提供更可靠的洞察。
Mann-Kendall检验是一种非参数检验,用于检查随时间推移是否存在单调的上升或下降趋势。与常规线性回归不同,它不假定线性关系或正态分布,直接建模。
金融:检测股票价格的微妙上升趋势。
免疫学:发现TCR/BCR克隆随时间的扩展或收缩。
下面我们生成两个合成数据集来说明这两种情况。
上升趋势:随时间推移而增加的数据。
无显著趋势:围绕平均值随机波动的数据(白噪声)。
我们将对这两个数据集进行Mann-Kendall检验并进行比较。
在上升趋势的情况下,你可能会看到“UpwardTrend”,且p值较低,具有统计学意义。
在无显著趋势情况下,测试结果应显示“NoTrend”,且p值较高。
Mood中位数检验可以检测两个或多个样本是否来自中位数相同的人群。当数据分布偏斜或你特别关注中位数而非平均值时,这是一种稳健的非参数检验。
免疫学:比较多个患者组之间TCR多样性的中位数(例如,两个Rerpertoires之间的K1000指数)。
金融:比较不同股票的日收益中位数。
体育:比较不同策略的性能指标(如运行时间)中位数。
我们将创建两组:
不同的中位数:一组的中位数明显较高,另一组较低。
相似中位数:基本分布相似的组。
Friedman检验相当于重复测量方差分析的非参数检验。它可以检验多种处理或条件是否会导致对相同受试者(或区块)进行测量时产生不同的结果。
体育:比较同一组运动员在不同训练方案下的长期表现。
免疫学:测量同一患者在不同治疗或多个时间点下的反应。
金融:在多个时间窗口中重复相同的时间序列数据,评估不同的预测方法
显著差异:三种训练方法得出的分数明显不同。
无显著差异:三种训练方法得出的分数大致相同。
在显著差异中,你应该看到中位数的明显差异和较低的p值。
在无显著差异中,分布严重重叠,p值会更高。
Theil-Sen估计器是一种估计线性关系斜率的稳健方法。与普通最小二乘法(OLS)不同,它对异常值的敏感度要低得多,因为它是基于所有成对斜率的中位数。
金融:估计股票走势,而不会被几个极端日误导。
免疫学:跟踪TCR频率或抗体水平随时间的变化率,即使异常日出现意外峰值。
体育:检查运动员的表现趋势如何演变,忽略特别糟糕或特别好的“侥幸”日子。
无异常值:数据遵循近乎完美的线性趋势。
有异常值:某些点严重偏离趋势。
Anderson-Darling检验是一种拟合优度检验,用于检验数据是否来自特定的分布(通常是正态分布)。与其他检验(如Shapiro-Wilk检验)相比,Anderson-Darling检验更重视尾部,因此对极端值的偏差更为敏感。
金融:验证每日收益是否真正遵循正态分布–剧透警告:通常情况下,它们并不遵循正态分布!
免疫学:检查你的TCR/BCR多样性指标是否遵循假定分布。
体育:在应用参数检验之前,确保性能数据符合正态性假设。
来自正态分布的数据。
来自非正态分布的数据(例如指数)。
对于正态数据,你可能会发现测试统计量低于临界值,这表明无法拒绝正态性。
对于非正态分布数据,测试统计量较高,表明数据偏离了正态分布–尤其是尾部行为更为明显。
这五种统计检验确实在非理想数据条件下表现出色,能够解决许多传统参数检验(如t检验、ANOVA)的局限性。以下是它们的核心特点和应用场景的进一步解读,以及何时选择它们的建议:
用途:检测时间序列中的单调趋势(上升/下降),无需假设线性或正态性。
优势:对缺失数据、非正态分布和季节性波动稳健。
案例:环境科学中分析气温或污染物的长期趋势。
用途:比较多个独立组的中位数差异,替代单因素ANOVA的非参数版本。
优势:不受异常值或偏态分布影响,适用于序数数据。
注意:若组间方差差异大,Kruskal-Wallis可能更优。
案例:比较不同教育政策下学生考试成绩的中位数(数据有极端值)。
用途:重复测量或匹配样本的非参数比较(类似重复测量ANOVA)。
优势:处理同一受试者在不同条件下的排序数据(如药物治疗前后的效果)。
后续分析:可用Nemenyi检验进行两两比较。
案例:运动员在三种不同训练方案下的表现排名(数据为序数或非正态)。
用途:估计线性趋势的斜率,对异常值不敏感。
优势:比普通最小二乘(OLS)回归更稳健,计算中位数斜率。
扩展:可与Siegel重复中位数方法结合处理多维数据。
案例:分析经济指标与贫困率的关系(数据中存在极端离群值)。
用途:检验数据是否来自特定分布(如正态性、指数分布)。
优势:比K-S检验对尾部差异更敏感,适合小样本。
注意:需指定分布参数(可使用估计值)。
案例:验证金融收益率的正态性(对极端风险敏感)。
时间序列趋势检测
Mann-Kendall
Seasonal-Kendall
多组中位数比较
Mood’sMedian
Kruskal-Wallis
重复测量数据
Friedman
重复测量ANOVA(若正态)
稳健回归(抗异常值)
Theil-Sen
Huber回归
分布检验(尤其尾部)
Anderson-Darling
Shapiro-Wilk/K-S
这些方法共同的特点是放弃部分统计效能换取稳健性,在现实数据中往往是更务实的选择。尤其在生物医学、社会科学、环境监测等领域,它们能揭示参数检验可能掩盖的真相。
长按👇关注-数据STUDIO-设为星标,干货速递


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录