抛一枚硬币，掌握三种参数估计方法

发布日期: 2025-06-05

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

假设有一枚硬币，每次投掷后正面朝上的概率未知。我们将这枚硬币独立投掷次，其中正面朝上出现了次。
问题：如何估计这个硬币正面朝上的概率？
韩梅梅：很简单，嘛？
李雷：不对，不管和是多少，这个硬币它正面朝上的概率必须是50%啊。
韩梅梅：李雷你太顽固了，这枚硬币也没有说一定是均匀的呀，假如抛了1000次，没有1次正面朝上，你还敢说正面朝上的概率是50%吗？
李雷：如果只抛了1次，反面朝上，那按照韩梅梅你的说法，你敢说这个硬币正面朝上的概率是0%？
李雷和韩梅梅说的好像都有些道理，李雷更加重视过往积累的一般经验，而韩梅梅呢更加重视具体数据。
但要把这个事情完全讲清楚，并不是那么容易的。我们将祭出大名鼎鼎的贝叶斯公式。并介绍与之相关的三种重要的参数估计方法：极大似然估计，最大后验估计，以及贝叶斯估计。
假设我们要估计的参数是，观察到的数据是，这时贝叶斯公式为：
其中：
：后验概率，在观测到数据之后，参数的概率分布。它体现了我们在看到数据之后对参数的相信程度。
：似然函数，在参数为时，观测到数据的概率。它衡量了参数下数据出现的可能性。
：先验概率，在观测数据之前，我们对参数的主观认识或相信程度。
：边缘似然，所有参数情况下，观测到数据的概率。它起归一化作用，保证后验概率和为1。
为什么叫做边缘似然呢？因为它是似然函数对的边缘化。\“边缘化\“是概率论中消除联合分布中多余变量的标准操作。
贝叶斯公式告诉我们：后验概率=先验概率×似然函数/归一化常数。
极大似然估计简称MLE(MaximumLikelihoodEstimation)。
极大似然估计的思路是：在所有可能的参数中，找到最有可能生成观测数据的那个参数。
对于硬币问题，单次投掷正面概率为，反面概率为，总共次投掷，正面次，反面次。观测数据的似然函数为：
MLE的目标是最大化似然函数，即：
通常取对数方便计算：
对求导并令其为0：
解得：
即，极大似然估计就是正面出现的频率。
韩梅梅的估计方法实际上就是极大似然估计，完全不考虑贝叶斯公式中的先验项。
最大后验估计简称MAP(MaximumAPosterioriEstimation)。
最大后验估计考虑了参数的先验知识，即我们在投掷硬币前对的主观认识。MAP的目标是最大化后验概率：
假设的先验是分布，则：
则后验为：
对数化后求极值：
同样求导等于0：
解得：
当先验参数时，MAP就退化为MLE。
李雷的认知，基本上就是类似这种状态，先验强的一匹，观察到的的一点点数据很难影响他的先验认知。
贝叶斯估计的目标不是给出一个点估计，而是利用后验分布的性质进行估计，常用的是后验均值（期望）：
对于Beta先验和似然，上述后验也是Beta分布：
Beta分布的均值为：
贝叶斯估计不仅给出一个点估计，还给出的后验分布，可以反映参数的不确定性。
极大似然估计（MLE）：仅考虑数据本身，不引入先验知识，等价于经验风险最小化（ERM），容易受到数据量小或极端数据的影响（比如一枚新硬币只投了一次就正面朝上，MLE会认为）。
最大后验估计（MAP）：引入先验，等价于带正则化项的极大似然（如L2正则化对应正态分布先验，L1正则化对应双指数分布先验），相当于结构风险最小化（SRM）。
贝叶斯估计：不仅仅给出一个点估计，而是完整的参数分布，能直接反映不确定性。
在机器学习中，极大似然估计和最大后验估计最常见。极大似然对应无正则化的传统机器学习模型，最大后验估计对应带有正则化项的模型。正则化项的本质就是先验知识的体现。
经验风险最小化（ERM）：只关注训练数据的拟合。
结构风险最小化（SRM）：在拟合数据的基础上，增加模型的复杂度控制（正则化），有助于提升泛化能力。
贝叶斯方法虽然理论完善，但在实际大规模机器学习中的应用受限于计算复杂度，但在需要建模不确定性、数据稀缺等场景下非常有价值。
小结：
极大似然估计：只看数据，点估计，容易过拟合。
最大后验估计：数据+先验，点估计，等价于正则化。
贝叶斯估计：数据+先验，分布估计，能反映参数不确定性。
理解这些估计方法及其联系，对于深入理解机器学习模型的本质、正则化的意义，以及模型选择和泛化性能提升都至关重要。