它是令人沮丧的学习原则,如最大似然估计(MLE),最大后验(MAP)和贝叶斯推理一般。在我看来,造成这种困难的主要原因是,许多教程假设已经有了知识,使用隐式或不一致的表示法,或者甚至解决了完全不同的概念,从而重载了这些原则。
那些上述问题使新人能够了解这些概念,而且我经常被许多辅导误导的人误解。亚洲金博宝出于这个原因,我决定向这些概念写出一个理智的介绍,并在试图解释每个制定的一步时,详细说明他们的关系和隐藏的互动。亚洲金博宝我希望为新的东西带来一些新的东西,以帮助人们了解这些原则。
最大似然估计
最大似然估计是一种方法或原理,用于估计参数或参数的模型给定的观察或观察。最大似然估计又缩写为MLE,又称极大似然法。从这个名字,你可能已经理解了这个原理是通过最大化可能性来工作的,因此,理解最大似然估计的关键是首先理解什么是可能性以及为什么有人想要最大化它来估计模型参数。
让我们从持续案例的似然函数的定义开始:
$$ \ mathcal {l}(\ theta | x)= p _ {\ theta}(x)$$
左词意味着“参数\(\ theta \)的可能性,给定数据\(x \)”。这是什么意思 ?这意味着在连续情况下,模型\(p _ {\ theta}(x)\)与参数化\(\ theta \)和data \(x \)的可能性是概率密度函数(PDF)具有该特定参数化的模型。
Although this is the most used likelihood representation, you should pay attention that the notation \(\mathcal{L}(\cdot | \cdot)\) in this case doesn’t mean the same as the conditional notation, so be careful with this overload, because it is always implicitly stated and it is also often a source of confusion. Another representation of the likelihood that is often used is \(\mathcal{L}(x; \theta)\), which is better in the sense that it makes it clear that it’s not a conditional, however, it makes it look like the likelihood is a function of the data and not of the parameters.
模型\(p _ {\ theta}(x)\)可以是任何分发,并制作混凝土,让我们说我们正在假设数据生成分发是一个单变量的高斯分布,我们定义下面:
$$ 开始\{对齐} p(x)&\ sim \ mathcal {n}(\ mu,\ sigma ^ 2)\\ p(x; \ mu,\ sigma ^ 2)&\ sim \ frac {1} {\ sqrt {2 \ pi \ sigma ^ 2} \ exp {\ bigg [ - \ frac {1} {2} \ bigg(\ frac {x-\ mu} {\ sigma} \ bigg)^ 2 \ bigg]} \结束{align} $$
如果您用不同的参数化绘制这种概率密度函数,您将获得类似于下面的图,其中红色分布是标准高斯\(p(x)\ sim \ mathcal {n}(0,1.0)\):
188bet app
正态分布概率密度函数(PDFs)的选择。平均值(an)和方差(an)都是可变的。图中给出了关键。资源 :Wikimedia Commons。
如上所述在概率密度函数(PDF)曲线上,因此在y轴上显示了各种给定的实现的\(x \)的可能性。这里的另一个混淆来源是,人们通常将此作为概率,因为他们通常会看到这些法线的曲线,但可能性总是低于1,然而,概率密度函数不会给你概率但密度。PDF的约束是它必须集成到一个:
$$ int_{-\infty}^{+\infty} f(x)dx = 1$$
因此,对于许多不同分布的许多点,密度大于1的密度是完全正常的。以例如pdf为例β发行 下面:
188bet开户注册平台
分布的概率密度函数。来源:维基共享。
如您所见,PDF在分布的许多参数化上以上的密度显示在许多参数化之上,同时仍将其集成到1和遵循概率的第二个公理之后:单位测量。
那么,回到我们最初的最大似然估计原则,我们想要的是最大化我们观测数据的可能性\(\mathcal{L}(\theta | x)\)。在实践中,这意味着我们要找到模型的参数\(\theta\),使模型生成数据的可能性最大化,我们要找到哪个参数此模型的参数是最合理的 要生成此观察到的数据,或者将该样本最有可能的参数是什么?
对于我们的单变量高斯模型的情况,我们想要的是找到参数\(\ mu \)和\(\ sigma ^ 2 \),这对于方便的符号,我们倒入一个参数向量:
$$ \ theta = \ begin {bmatrix} \ mu \\ \ sigma ^ 2 \ neg {bmatrix} $$
因为这些统计量完全定义了我们的单变量高斯模型。那么,让我们来构建最大似然估计的问题:
$$ 开始\{对齐} \ hat {\ theta}&= \ mathrm {arg} \ max_ \ theta \ mathcal {l}(\ theta | x)\\ &= mathrm {arg} \ max_ \ theta p _ {\ theta}(x) \结束{align} $$
这就是说,我们希望通过最大化给定数据\(x\)的参数\(\theta\)的可能性来获得最大似然估计\(\hat{\theta}\),使\(p_{\theta}(x))接近底层的“真实”分布\(p_{\theta^*}(x)\)。你不应该把最大似然估计\(\hat{\theta}(x)\)和最大似然估计\(\hat{\theta}\)混淆,所以要注意在头脑中消除歧义。最大似然估计是数据的最大似然估计器(x)的实现。
但是,我们需要在该制剂中纳入多种观察,并通过增加多种观察结果,我们最终得到复杂的联合分布:
$$ \ hat {\ theta} = \ mathrm {arg} \ max_ \ theta p _ {\ theta}(x_1,x_2,\ ldots,x_n)$$
需要考虑所有观察之间的相互作用。这里是我们做出强烈的假设:我们说明了观察是独立的 。独立随机变量意味着以下持有:
$$ p _ {\ theta}(x_1,x_2,\ ldots,x_n)= \ prod_ {i = 1} ^ {n} p _ {\ theta}(x_i)$$
这意味着由于\(x_1,x_2,\ ldots,x_n \)不包含关于彼此的信息,我们可以将联合概率写作其边缘的产品。
制作的另一个假设是这些随机变量是相同分布 ,这意味着它们来自同样的发电分配,这使我们能够用相同的分布参数化来模拟它。
鉴于这两个假设,也称为Iid. (独立和相同分布),我们可以制定我们的最大可能性估计问题,如:
$$ \ hat {\ theta} = \ mathrm {arg} \ max_ \ theta \ prod_ {i = 1} ^ {n} p _ {\ theta}(x_i)$$
注意,MLE并不要求您做这些假设,但是,如果您不做这些假设,将会出现许多问题,例如每个样本的分布不同,或者必须处理联合概率。
鉴于在许多情况下,我们乘法的这些密度可以非常小,在我们上面的产品中乘另一个人乘以一个非常小的值。亚洲金博宝这是对数函数使其到可能性的地方。日志函数是一个严格单调的越来越多的功能,可以保留所在的位置极值 并有一个非常好的财产亚洲金博宝:
$$\log ab = \log a + \log b $$
其中产品的对数是对数的总和,这对我们来说非常方便,所以我们将对数施加到最大化所谓的东西的可能性亚洲金博宝日志可能 :
$$ 开始\{对齐} \ hat {\ theta}&= \ mathrm {arg} \ max_ \ theta \ prod_ {i = 1} ^ {n} p _ {\ theta}(x_i)\\ & = \ mathrm {arg} \ max_ \θ\ sum_ {i = 1} ^ {n} \ log p_{\θ}(x_i) \ \ \结束{align} $$
正如您所看到的,我们从一个产品到一个求和,这更方便。应用对数的另一个原因是我们经常采取衍生物并解决参数,因此比乘法更容易使用求和。
我们也可以方便地平均日志可能性(鉴于我们只是包括常量的乘法 ):
$$ 开始\{对齐} \ hat {\ theta}&= \ mathrm {arg} \ max_ \ theta \ sum_ {i = 1} ^ {n} \ log p _ {\ theta}(x_i)\\ & = \ mathrm {arg} \ max_ \θ\压裂{1}{n} \ sum_ {i = 1} ^ {n} \ log p_{\θ}(x_i) \ \ \结束{align} $$
这也很方便,因为它将消除对观测数量的依赖。我们也知道,通过大数定律 ,以下为\(n\to\infty\):
$$ \ frac {1} {n} \ sum_ {i = 1} ^ {n} \ log \,p _ {\ theta}(x_i)\ inflicat \ mathbb {e} _ {x \ sim p _ {\ theta ^ *}(x)} \ left [\ log \,p _ {\ theta}(x)\右] $$
正如您所看到的,我们近似于期望经验期望 由我们的DataSet \(\ {x_i \} _ {i = 1} ^ {n})定义。这是一个重要的点,通常暗示地假设。
弱大数定律可以用切比雪夫界限来界定,如果你对浓度不等式感兴趣,我已经做了188asia.net 这里我讨论了切比雪夫边界。
为了完成我们的配方,鉴于我们通常最小化目标,我们可以制定与日志似然负值的最小化相同的最大可能性估计:
$$ \ hat {\ theta} = \ mathrm {arg} \ min_ \ theta - \ mathbb {e} _ {x \ sim p _ {\ theta ^ *}(x)\左[\ log \,p _ {\ theta}(x)\右] $$
这与否定将最大化问题转化为最小化问题是完全相同的。
从信息理论与Kullback-Leibler发散的最大似然估计的关系
众所周知,最大化可能性与最小化相同Kullback-Leibler分歧 ,也称为KL散度。这很有趣,因为它连亚洲金博宝接了一个度量信息理论 最大可能性原则。
KL发散定义为:
$$ \ begin {公式} D_ {KL} (p | | q = \ int p (x) \ log \压裂{p (x)}{问(x)} \ dx \结束{等式} $$
理解KL散度有很多直觉,我个人比较喜欢这个角度可能性比率 但是,有很多材料可以轻松找到,它超出了这一介绍的范围。
KL发散基本上是对\(P(x)\)分布下的对数似然比的期望。我们在下面做的是通过使用期望的一些身份和属性来重新描述:
$$ 开始\{对齐} D_ {KL} [p_{\θ^ *}(x) \ \绿色\,p_ \θ(x)] & = \ mathbb {E} _ {x \ sim p_{\θ^ *}(x)} \离开[\ log \压裂{p_{\θ^ *}(x)} {p_ \θ(x)} \右]\ \ \ label {eq:logquotient} & = \ mathbb {E} _ {x \ sim p_{\θ^ *}(x)} \离开[\ log \, p_{\θ^ *}(x) - \ log \, p_ \θ(x) \] \ \ \ label {eq:linearization} &= \ mathbb {e} _ {x \ sim p _ {\ theta ^ *}(x)} \ undbrace {\ left [\ log \,p _ {\ theta ^ *}(x)\ rectle]} _ {\文本{p end} p _ {\ theta ^ *}(x)} - \ underbrace {\ mathbb {e} _ {x \ sim p _ {\ theta ^ *}(x)} left [\ log \,p_ {\ theta}(x)\ offer]}} _ {\ text {log-likeeliious的否定}} \结束{align} $$
在上面的制定中,我们首先使用的是,商品的对数等于分子和分母的日志(等式\(\ ref {eq:logquotient})的差异。之后我们使用期望的线性化(等式\(\ ref {eq:linearization} \)),它告诉我们\(\ mathbb {e} \ left [x + y \ light] = \ mathbb {e}\ left [x \ light] + \ mathbb {e} \ left [y \ reval] \)。最后,我们留下了两个术语,左列第一是熵 右边的这个你可以认出来负的对数似然 我们之前看到的。
If we want to minimize the KL divergence for the \(\theta\), we can ignore the first term, since it doesn’t depend of \(\theta\) in any way, and in the end we have exactly the same maximum likelihood formulation that we saw before:
$$ \ begin {eqnarray} \要求{取消} \θ^ * & = & \ mathrm {arg} \ min_ \θ\取消{\ mathbb {E} _ {x \ sim p_{\θ^ *}(x)} \离开[\ log \, p_{\θ^ *}(x) \]} - \ mathbb {E} _ {x \ sim p_{\θ^ *}(x)} \离开[\ log \, p_{\θ}(x) \] \ \ &=&\ mathrm {arg} \ min_ \ theta - \ mathbb {e} _ {x \ sim p _ {\ theta ^ *}(x)}左[\ log \,p _ {\ theta}(x)\对] 结束\ {eqnarray} $$
条件对数可能
机器亚洲金博宝学习中的一个非常常见的情景是监督学习,我们有数据点\(X_N \)及其标签\(y_n \)构建我们的数据集\(d = \ {(x_1,y_1),(x_2,y_2),\ldots, (x_n, y_n) \} \), where we’re interested in estimating the conditional probability of \(\textbf{y}\) given \(\textbf{x}\), or more precisely \( P_{\theta}(Y | X) \).
要扩展条件情况的最大可能性原则,我们只需将其写为:
$$ \ hat {\ theta} = \ mathrm {arg} \ min_ \ theta - \ mathbb {e} _ {x \ sim p _ {\ theta ^ *}(y | x)} \ left [\ log \,p _ {\Theta}(y | x)\右] $$
然后可以很容易地推广,得到线性回归公式:
$$ p_{\θ}(y | x) \ sim \ mathcal {N} (x ^ T \θ,\σ^ 2)\ \ \ log p _ {\ theta}(y | x)= -n \ log \ sigma - \ frac {n} {2} \ log {2 \ pi} - \ sum_ {i = 1} ^ {n} {\ frac{\ |x_i ^ t \ theta - y_i \ |} {2 \ sigma ^ 2}} $$
在这种情况下,您可以看到我们最终得到了一个平方误差之和,其将具有相同的位置的平均误差(MSE)的最佳位置。因此,您可以看到最小化MSE相当于最大化高斯模型的可能性。
关于最大可能性的备注
最大似然估计具有非常有趣的属性,但它仅给我们亚洲金博宝点估计数 ,这意味着我们不能根据这些估计的分布进行推理。相比之下,贝叶斯推理可以给我们一个参数的完整分布,因此将允许我们关于后部分布的原因 。
我将写更多关于贝叶斯推断和抽样方法的内容,比如来自马尔可夫链蒙特卡洛(MCMC)族的方法,但我将把这个留给另一篇文章,现在我将继续展示最大似然估计量与最大后验(MAP)估计量的关系。
最大后验
虽然最大的后验,但也称为地图,也为我们提供了一种点估计,它是一种贝叶斯概念,它包括在参数上之前的概念。我们还将看到地图与正则化的MLE估算有着强烈的连接。
根据贝叶斯规则,我们可以由似然和先验的乘积得到后验,通过证据归一化:
$$ 开始\{对齐} p(\ theta \ vert x)&= \ frac {p _ {\ theta}(x)p(\ theta)} {p(x)} \\ {情商:proport} \标签 &\ propto p _ {\ theta}(x)p(\ theta) \结束{align} $$
In the equation \(\ref{eq:proport}\), since we’re worried about optimization, we cancel the normalizing evidence \(p(x)\) and stay with a proportional posterior, which is very convenient because the marginalization of \(p(x)\) involves integration and is intractable for many cases.
$$ 开始\{对齐} \ theta_ {map}&= mathop {\ rm arg \,max} \ limits _ {\ theta} p _ {\ theta}(x)p(\ theta)\\ &= mathop {\ rm arg \,max} \ limits _ {\ theta} \ prod_ {i = 1} ^ {n} p _ {\ theta}(x_i)p(\ theta)\\ &= \ mathop {\ rm arg \,max} \ limits _ {\ theta} \ sum_ {i = 1} ^ {n} \ undbrace {\ log p _ {\ theta}(x_i)} _ {\ text {log oilli} \ \ undbrace {p(\ theta)} _ {\ text {prior}} \结束{align} $$
在上面的这种制定中,我们刚刚遵循与前面更早的最大似然估计器所述的步骤,我们假设独立性和相同的分布设置,然后通过对数应用来从产品切换到求和。正如您在最终制定中看到的那样,这是等同的,因为最大似然估计乘以先前任期。
我们还可以通过使用统一的先前\(p(\ theta)\ sim \ textbf {u}(\ cdot,\ cdot)\)来轻松恢复确切的最大可能性估计器。这意味着每个可能的\(\ thet亚洲金博宝a \)的值将同样加权,这意味着它只是一个常量乘法:
$$ 开始\{对齐} 地图\ theta_ {} & = \ mathop {\ rm arg \马克斯}\ limits_{\θ}\ sum_i \ log p_{\θ}(x_i) p(θ)\ \ \ &= mathop {\ rm arg \,max} \ limits _ {\ theta} \ sum_i \ log p _ {\ theta}(x_i)\,\ text {constant} \\ &= \ \ uchbrace {\ mathop {\ rm arg \,max} \ limits _ {\ theta} \ sum_i \ log p _ {\ theta}(x_i)} _ {\ text {等于最大似然估计(mle)}}}\ \结束{align} $$
就是这样,具有统一先验的映射等价于MLE。高斯先验也可以很容易地恢复L2正则化的最大似然值。这是非常有趣的,因为它可以为我们经常使用的正则化术语提供深刻的见解和一个新的视角。
我希望你喜欢这篇文章!下一个将是关于贝叶斯推论的后验水,我们将展示我们如何推理后部分布,而不仅仅是在地图和MLE中看到的点估计。
- Christian S. Perone