仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
假设有一枚硬币,每次投掷后正面朝上的概率未知。我们将这枚硬币独立投掷次,其中正面朝上出现了次。
问题:如何估计这个硬币正面朝上的概率?
韩梅梅:很简单,嘛?
李雷:不对,不管和是多少,这个硬币它正面朝上的概率必须是50%啊。
韩梅梅:李雷你太顽固了,这枚硬币也没有说一定是均匀的呀,假如抛了1000次,没有1次正面朝上,你还敢说正面朝上的概率是50%吗?
李雷:如果只抛了1次,反面朝上,那按照韩梅梅你的说法,你敢说这个硬币正面朝上的概率是0%?
李雷和韩梅梅说的好像都有些道理,李雷更加重视过往积累的一般经验,而韩梅梅呢更加重视具体数据。
但要把这个事情完全讲清楚,并不是那么容易的。我们将祭出大名鼎鼎的贝叶斯公式。并介绍与之相关的三种重要的参数估计方法:极大似然估计,最大后验估计,以及贝叶斯估计。
假设我们要估计的参数是,观察到的数据是,这时贝叶斯公式为:
其中:
:后验概率,在观测到数据之后,参数的概率分布。它体现了我们在看到数据之后对参数的相信程度。
:似然函数,在参数为时,观测到数据的概率。它衡量了参数下数据出现的可能性。
:先验概率,在观测数据之前,我们对参数的主观认识或相信程度。
:边缘似然,所有参数情况下,观测到数据的概率。它起归一化作用,保证后验概率和为1。
为什么叫做边缘似然呢?因为它是似然函数对的边缘化。\“边缘化\“是概率论中消除联合分布中多余变量的标准操作。
贝叶斯公式告诉我们:后验概率=先验概率×似然函数/归一化常数。
极大似然估计简称MLE(MaximumLikelihoodEstimation)。
极大似然估计的思路是:在所有可能的参数中,找到最有可能生成观测数据的那个参数。
对于硬币问题,单次投掷正面概率为,反面概率为,总共次投掷,正面次,反面次。观测数据的似然函数为:
MLE的目标是最大化似然函数,即:
通常取对数方便计算:
对求导并令其为0:
解得:
即,极大似然估计就是正面出现的频率。
韩梅梅的估计方法实际上就是极大似然估计,完全不考虑贝叶斯公式中的先验项。
最大后验估计简称MAP(MaximumAPosterioriEstimation)。
最大后验估计考虑了参数的先验知识,即我们在投掷硬币前对的主观认识。MAP的目标是最大化后验概率:
假设的先验是分布,则:
则后验为:
对数化后求极值:
同样求导等于0:
解得:
当先验参数时,MAP就退化为MLE。
李雷的认知,基本上就是类似这种状态,先验强的一匹,观察到的的一点点数据很难影响他的先验认知。
贝叶斯估计的目标不是给出一个点估计,而是利用后验分布的性质进行估计,常用的是后验均值(期望):
对于Beta先验和似然,上述后验也是Beta分布:
Beta分布的均值为:
贝叶斯估计不仅给出一个点估计,还给出的后验分布,可以反映参数的不确定性。
极大似然估计(MLE):仅考虑数据本身,不引入先验知识,等价于经验风险最小化(ERM),容易受到数据量小或极端数据的影响(比如一枚新硬币只投了一次就正面朝上,MLE会认为)。
最大后验估计(MAP):引入先验,等价于带正则化项的极大似然(如L2正则化对应正态分布先验,L1正则化对应双指数分布先验),相当于结构风险最小化(SRM)。
贝叶斯估计:不仅仅给出一个点估计,而是完整的参数分布,能直接反映不确定性。
在机器学习中,极大似然估计和最大后验估计最常见。极大似然对应无正则化的传统机器学习模型,最大后验估计对应带有正则化项的模型。正则化项的本质就是先验知识的体现。
经验风险最小化(ERM):只关注训练数据的拟合。
结构风险最小化(SRM):在拟合数据的基础上,增加模型的复杂度控制(正则化),有助于提升泛化能力。
贝叶斯方法虽然理论完善,但在实际大规模机器学习中的应用受限于计算复杂度,但在需要建模不确定性、数据稀缺等场景下非常有价值。
小结:
极大似然估计:只看数据,点估计,容易过拟合。
最大后验估计:数据+先验,点估计,等价于正则化。
贝叶斯估计:数据+先验,分布估计,能反映参数不确定性。
理解这些估计方法及其联系,对于深入理解机器学习模型的本质、正则化的意义,以及模型选择和泛化性能提升都至关重要。