最大似然估计(MLE)和最大后验(MAP)的合理介绍

这是令人沮丧了解的原则,如最大似然估计(MLE),最大后验(MAP)和贝叶斯推理一般。这一困难的主要原因,在我看来,是很多教程假设前面的知识,使用隐或不一致的符号,或者甚至解决一个完全不同的概念,因此重载这些原则。

这些上述问题作出新人理解这些概念很混乱,而且我经常谁是不幸被很多教程误导亚洲金博宝人面对。出于这个原因,我决定写一个健全的介绍,这些概念和更多地讨论他们的关系和隐藏的交互,同时试图解释配方的每一步。亚洲金博宝我希望能帮助人们理解这些原则带来新的东西。

最大似然估计

最大似然估计是一种方法或原理,用于估计参数或参数的模型给定的观察或观察。最大似然估计又简称MLE,又称极大似然法。从这个名字,你可能已经理解了这个原理是通过最大化可能性来工作的,因此,理解最大似然估计的关键是首先理解什么是可能性以及为什么有人想要最大化它来估计模型参数。

让我们从连续的情况下似然函数的定义开始:

$$ \ mathcal {L}(\ THETA | X)= P _ {\ THETA}(x)的$$

左边的项表示“参数的可能性\(\theta\),给定数据\(x\)”。这是什么意思呢?它意味着在连续的情况下,参数化的模型(p_{theta}(x)\)和数据\(x\)的可能性是具有特定参数化的模型的概率密度函数(pdf)。

Although this is the most used likelihood representation, you should pay attention that the notation \(\mathcal{L}(\cdot | \cdot)\) in this case doesn’t mean the same as the conditional notation, so be careful with this overload, because it is always implicitly stated and it is also often a source of confusion. Another representation of the likelihood that is often used is \(\mathcal{L}(x; \theta)\), which is better in the sense that it makes it clear that it’s not a conditional, however, it makes it look like the likelihood is a function of the data and not of the parameters.

模型\(p_{\theta}(x)\)可以是任意分布,具体来说,我们假设数据生成分布为单变量高斯分布,我们定义如下:

$$
\ {开始}对齐
P(X)&\ SIM \ mathcal {N}(\亩,\西格马^ 2)\\
P(X; \亩,\西格马^ 2)&\ SIM \压裂{1} {\ SQRT {2 \ PI \西格马^ 2}} \ EXP {\比格[ - \压裂{1} {2} \比格(\压裂{x轴\亩} {\西格玛} \比格)^ 2 \比格]}
\ {端对齐}
$$

如果你用不同的参数绘制这个概率密度函数,你会得到如下图,其中红色分布是标准高斯\(p(x) \sim \mathcal{N}(0,1.0)\):

188bet app
一个选择正态分布概率密度函数(PDF文件)中。两者的平均值,μ,和方差,σ²被改变。关键是在图中给出。:维基共享。

正如你在上面的概率密度函数(pdf)图中所看到的,在不同给定的实现中\(x\)的可能性显示在y轴上。另一个让人困惑的地方是,人们通常把它当作概率,因为他们通常看到这些图的法线概率总是低于1,然而,概率密度函数给出的不是概率而是密度。pdf的限制是它必须集成到一个:

$$ \ INT _ { - \ infty} ^ {+ \ infty} F(X)DX = 1 $$

所以,这是完全正常的有密度大于1的点多了许多不同的分布。举个例子为PDF格式贝塔分布下面:

188bet开户注册平台
分布的概率密度函数。来源:维基共享。

正如你所看到的,pdf显示密度在分布的许多参数化中高于1,同时仍然积分为1,并遵循第二个概率公理:单位度量。

所以,回到我们原来的最大似然估计的原则,我们要的是最大限度的可能性\(\ mathcal {L}(\ THETA | X)\),我们观察到的数据。这意味着在实用性方面是我们要找到这些参数\(\ THETA \),我们的模型,其中生成我们的数据这种模式的可能性最大的,我们要找出哪些这个模型的参数是最合理已经产生的这个观测数据,或者是什么,使这个样品最可能的参数?

对于单变量高斯模型,我们想要的是找到参数\(\mu\)和\(\²\)为了方便标记,我们把它们分解成一个参数向量:

$ $ {bmatrix}开始\θ= \ \μ\ \ \σ^ 2 \ {bmatrix} $ $

因为这些是完全定义我们的单变量高斯模型的统计信息。因此,让我们制定的最大似然估计的问题:

$$
\ {开始}对齐
\帽子{\ THETA}&= \ mathrm {ARG} \ MAX_ \ THETA \ mathcal {L}(\ THETA | X)\\
& = \ mathrm {arg} \ max_ \θp_{\θ}(x)
\ {端对齐}
$$

这就是说,我们希望通过最大化给定数据\(x\)的参数\(\theta\)的可能性来获得最大似然估计\(\hat{\theta}\),使\(p_{\theta}(x))接近底层的“真实”分布\(p_{\theta^*}(x)\)。你不应该把最大似然估计\(\hat{\theta}(x)\)和最大似然估计\(\hat{\theta}\)混淆,所以要注意在头脑中消除歧义。

但是这个公式需要加入多个观测值,通过加入多个观测值,得到一个复杂的联合分布:

$ $ \帽子{\θ}= \ mathrm {arg} \ max_ \θp_{\θ}(x_1、x_2 \ ldots x_n) $ $

这需要考虑到所有观测之间的相互作用。这里我们做了一个强有力的假设:我们声明观察是独立的。独立随机变量是指以下成立:

$ $ p_{\θ}(x_1、x_2 \ ldots x_n) = \ prod_ {i = 1} ^ {n} p_{\θ}(x_i) $ $

这意味着,由于\(x_1, x_2, \ldots, x_n\)不包含彼此的信息,我们可以把联合概率写成它们边长的乘积。

这是由另一个假设是,这些随机变量恒等分布的,这意味着它们来自相同的生成分布,这允许我们用相同的分布参数化建模。

假设这两个假设,也被称为IID(独立同分布),我们可以制定我们的最大似然估计的问题,因为:

$$ \帽子{\ THETA} = \ mathrm {ARG} \ MAX_ \ THETA \ prod_ {I = 1} ^ {N} p _ {\ THETA}(X_I)$$

请注意,MLE不要求你做这些假设,但是,很多问题会,如果你不给它,如对每个样品或有应付联合概率分布不同出现。

在很多情况下,我们乘以的密度会很小,在上面的乘积中,一个乘以另一个我们会得到很小的值。亚洲金博宝这就是对数函数的可能性。对数函数是一个严格单调递增的函数,它保持函数的位置极值并且有一个非常好的特亚洲金博宝性:

$$\log ab = \log a + \log b $$

乘积的对数是对数的和,这对我们来说很方便,所以我们将对数应用于最大化所谓的亚洲金博宝数似然

$$
\ {开始}对齐
\帽子{\ THETA}&= \ mathrm {ARG} \ MAX_ \ THETA \ prod_ {I = 1} ^ {N} p _ {\ THETA}(X_I)\\
&= \ mathrm {ARG} \ MAX_ \ THETA \ sum_ {I = 1} ^ {N} \的log P _ {\ THETA}(X_I)\\
\ {端对齐}
$$

正如你看到的,我们从一个乘积变成了一个求和,这更方便。使用对数的另一个原因是我们经常求导并求解参数,因此求和比乘法容易得多。

我们还可以方便地平均对数似然(假设我们只是包含了一个常数的乘法):

$$
\ {开始}对齐
\帽子{\ THETA}&= \ mathrm {ARG} \ MAX_ \ THETA \ sum_ {I = 1} ^ {N} \的log P _ {\ THETA}(X_I)\\
&= \ mathrm {ARG} \ MAX_ \ THETA \压裂{1} {N} \ {sum_ I = 1} ^ {N} \的log P _ {\ THETA}(X_I)\\
\ {端对齐}
$$

这也是方便,因为它会拿出依赖于观测的数量。我们也知道,通过大数定律,以下为\(n\to\infty\):

$$
\压裂{1} {N} \ sum_ {I = 1} ^ {N} \日志\,P _ {\ THETA}(X_I)\约\ mathbb {E} _ {X \ SIM P 450 {\ THETA ^ *}(X)} \左[\日志\,p _ {\ THETA}(X)\右]
$$

正如你所看到的,我们正在接近与期望经验的期望由我们的数据集\(\ {X_I \} _ {i = 1} ^ {N} \)所定义。这是一个很重要的一点,它通常是implictly假设。

大量的弱定律可以用切比雪夫约束来界定,如果你有兴趣浓度的不平等,我做了188asia.net这里我讨论了切比雪夫边界。

为了完成我们的配方,因为我们通常最小化的目标,我们可以制定相同的最大似然估计的数似然负的最小化:

$$
\帽子{\ THETA} = \ mathrm {ARG} \ min_ \ THETA - \ mathbb {E} _ {X \ SIM P 450 {\ THETA ^ *}(X)} \左[\ LOG \,P _ {\ THETA}(x)的\权利]
$$

这和只有否定是一样的把最大化问题变成了最小化问题。

最大似然估计的从信息论的相对熵的关系

众所周知,最大化概率和最小化概率是一样的Kullback-Leibler散度,也被称为KL散度。这是非常有趣的,因亚洲金博宝为它从一个链接衡量信息论与最大似然原则。

定义KL散度为:

$$
开始\{方程}
D_ {KL}(P || Q)= \ INT P(X)\日志\压裂{P(X)} {Q(X)} \ DX
结束\{方程}
$$

理解KL散度有很多直觉,我个人比较喜欢这个角度似然比然而,也有很多关于它的资料,你可以很容易找到,它是此介绍的范围了。

KL散度基本上是对数似然比在\(p(x)\)分布下的期望。下面我们要做的就是用期望的一些恒等式和属性来重新表述它

$$
\ {开始}对齐
D_ {KL} [P _ {\ THETA ^ *}(X)\,\ Vert的\,P_ \ THETA(x)]的&= \ mathbb {E} _ {X \ SIM P 450 {\ THETA ^ *}(x)的} \左[\ LOG \压裂{p _ {\ THETA ^ *}(X)} {P_ \ THETA(X)} \右] \\
\标签{EQ:logquotient}
& = \ mathbb {E} _ {x \ sim p_{\θ^ *}(x)} \离开[\ log \, p_{\θ^ *}(x) - \ log \, p_ \θ(x) \] \ \
\标签{EQ:线性}
& = \ mathbb {E} _ {x \ sim p_{\θ^ *}(x)} \ underbrace左{\ [\ log \, p_{\θ^ *}(x) \]} _{{熵}\文本p_{\θ^ *}(x)} - \ underbrace {\ mathbb {E} _ {x \ sim p_{\θ^ *}(x)}左\ [\ log \, p_{\θ}(x) \]} _{\文本{负对数似}}
\ {端对齐}
$$

在上面的配方中,我们首先使用的事实的商的对数等于所述分子和分母的日志的差(方程\(\ REF {当量:logquotient} \))。之后,我们使用期望的线性化(方程\(\ REF {当量:线性} \)),其告诉我们,\(\ mathbb {E} \左[X + Y \右] = \ mathbb {E}\左[X \右] + \ mathbb {E} \左[Y \右] \)。最后,我们只剩下两个学期,在左边第一个是和一个你可以识别为右对数似然负我们在前面看到的。

If we want to minimize the KL divergence for the \(\theta\), we can ignore the first term, since it doesn’t depend of \(\theta\) in any way, and in the end we have exactly the same maximum likelihood formulation that we saw before:

$$
开始\ {eqnarray}
\需要【取消】
\θ^ * & = & \ mathrm {arg} \ min_ \θ\取消{\ mathbb {E} _ {x \ sim p_{\θ^ *}(x)} \离开[\ log \, p_{\θ^ *}(x) \]} - \ mathbb {E} _ {x \ sim p_{\θ^ *}(x)} \离开[\ log \, p_{\θ}(x) \] \ \
& = & \ mathrm {arg} \ min_ \θ- \ mathbb {E} _ {x \ sim p_{\θ^ *}(x)} \离开[\ log \, p_{\θ}(x) \]
结束\ {eqnarray}
$$

有条件的数似然

在机亚洲金博宝器学习很常见的情况是监督学习,在那里我们有数据点\(x_n \)和它们的标签\(y_n \)建立了数据集\(d = \ {(X_1,Y_1),(X_2,Y_2),\ldots, (x_n, y_n) \} \), where we’re interested in estimating the conditional probability of \(\textbf{y}\) given \(\textbf{x}\), or more precisely \( P_{\theta}(Y | X) \).

最大似然原则延伸到有条件的情况下,我们就必须把它写成:

$$
\帽子{\θ}= \ mathrm {arg} \ min_ \θ- \ mathbb {E} _ {x \ sim p_{\θ^ *}(y | x)} \离开[\ log \, p_{\θ}(y | x) \]
$$

然后可以很容易地推广,得到线性回归公式:

$$
P 450 {\ THETA}(Y | X)\ SIM \ mathcal {N}(X ^ T \ THETA,\西格马^ 2)\\
p_{\θ}(y | x) = - n \ log \σ- \压裂{n} {2} \ log{2 \π}- \ sum_ {i = 1} ^ {n}{\压裂{\ | x_i ^ T \θ- y_i \ |}{2 \σ^ 2}}
$$

在这种情况下,你可以看到,我们最终得到的平方误差的总和,将具有相同位置的最佳平均平方误差(MSE)。所以你可以看到最小化MSE等价于最大化高斯模型的可能性。

备注最大似然

极大似然估计有很有趣的性质但它只给我们亚洲金博宝点估计,这意味着我们不能根据这些估计的分布进行推理。相比之下,贝叶斯推理可以给我们一个参数的完整分布,因此将允许我们关于后验分布的原因

I’ll write more about Bayesian inference and sampling methods such as the ones from the Markov Chain Monte Carlo (MCMC) family, but I’ll leave this for another article, right now I’ll continue showing the relationship of the maximum likelihood estimator with the maximum a posteriori (MAP) estimator.

最大后验

虽然最大后验,也被称为MAP,也提供给我们一个点估计,它是一个贝叶斯概念,包含了一个先验的参数。我们还将看到,该地图与正则化MLE估计有很强的联系。

根据贝叶斯规则,我们可以由似然和先验的乘积得到后验,通过证据归一化:

$$
\ {开始}对齐
P(\ THETA \ VERT X)= \压裂{P _ {\ THETA}(x)的P(\ THETA)} {P(X)} \\
\标签{EQ:PROPORT}
&\ propto P 450 {\ THETA}(x)的P(\ THETA)
\ {端对齐}
$$

在等式\(\ref{eq:proport}\)中,由于我们担心最优化问题,我们取消了正态化证据\(p(x)\)并保持比例后验,这是非常方便的,因为\(p(x)\)的边缘化涉及到积分,并且在许多情况下难以解决。亚洲金博宝

$$
\ {开始}对齐
\ theta_ {MAP}&= \ mathop {\ RM ARG \,最大} \限制_ {\ THETA} p _ {\ THETA}(x)的P(\ THETA)\\
& = \ mathop {\ rm arg \马克斯}\ limits_{\θ}\ prod_ {i = 1} ^ {n} p_{\θ}(x_i) p(θ)\ \ \
& = \ mathop {\ rm arg \马克斯}\ limits_{\θ}\ sum_ {i = 1} ^ {n} \ underbrace {\ log p_{\θ}(x_i)} _{\文本日志可能性}{}\ underbrace {p(\θ)}_{\文本之前{}}
\ {端对齐}
$$

在上面的公式中,我们只是遵循了与前面描述的最大似然估计相同的步骤,我们假设独立性和相同的分布设置,然后使用对数将乘积转换为求和。正如您在最后的公式中看到的,这相当于最大似然估计乘以前一项。

我们也可以通过使用统一先验\(p(\theta) \sim \textbf{U}(\cdot, \cdot)\)轻松地恢复精确的最大似然估计量。这意味着所有可能的\(\theta亚洲金博宝\)都是等权重的,也就是说它只是一个常数乘法

$$
\ {开始}对齐
地图\ theta_ {} & = \ mathop {\ rm arg \马克斯}\ limits_{\θ}\ sum_i \ log p_{\θ}(x_i) p(θ)\ \ \
& = \ mathop {\ rm arg \马克斯}\ limits_{\θ}\ sum_i \ log p_{\θ}(x_i) \ \{常数}\ \文本
&= \下括号{\mathop{\rm arg\,max}\limits_{\theta} \sum_i \log p_{\theta}(x_i)}_{\text{等价于极大似然估计(MLE)}} \\
\ {端对齐}
$$

就是这样,具有统一先验的映射等价于MLE。高斯先验也可以很容易地恢复L2正则化的最大似然值。这是非常有趣的,因为它可以为我们经常使用的正则化术语提供深刻的见解和新的视角。

我希望你喜欢这篇文章!下一个会是关于贝叶斯推理与采样后,我们将展示我们如何推理后验分布,而不是只对所看到的MAP和MLE点估计。

- Christian S. Perone

引用这篇文章:Christian S. Perone,“最大似然估计(MLE)和最大后验概率(MAP)的理智介绍”亚洲金博宝未知领域,2019年2月1日,//www.cpetem.com/2019/01/mle/

9个想法“A理智介绍最大似然估计(MLE)和最大后验(MAP)”

  1. 优秀的解释!感谢在谈论一种简单的方式的一个重要课题。

  2. 太棒了!我所见过的对MLE最好的解释之一,它与KL散度和MAP的联系。谢谢分享。

  3. 伟大的文章。谢谢你!

    但是我认为,在方程(16)和(17)的期望不以下分布p但以下的均匀分布。方程(19) - (21)都很好,所以我不知道方程(23)的要求。

    无论如何,这是我推荐的一篇好文章。

  4. 很好的解释,我已经阅读最明显的一个。

    在映射推导中,使用的一致先验没有定义在支持上(我假设是-/+∞)。在这种情况下,先验的选择似乎是有效的,因为我们可以把它作为一个常数从优化中去掉。如果相反,你想从先验预测分布中取样,或边缘化的theta,那么结果的分布是有效的(即积分到1)?

  5. 谢谢你的努力。
    方程25的第二行应该是左边的对数概率。在右边,你少了平方项

  6. 你在第(7)之后的那一段完全没有意义,你说最大似然估计是,我没有更好的格式,最后你说人们不应该把它错当成,最大似然估计。在段落的中间,你说最大似然估计是现在的和以前不同的符号,这也没有意义,因为你已经定义了一个向量(已知(5)和(6)),因此不是一个函数。请改正这些错误。

留下一个回复

您的电子邮件地址将不会被公布。

这个网站使用Akismet来减少垃圾邮件。了解如何处理您的评论数据