这是令人沮丧了解的原则,如最大似然估计(MLE),最大后验(MAP)和贝叶斯推理一般。这一困难的主要原因,在我看来,是很多教程假设前面的知识,使用隐或不一致的符号,或者甚至解决一个完全不同的概念,因此重载这些原则。
前面提到的这些问题让新手理解这些概念变得非常困惑,我经常遇到不幸被许多教亚洲金博宝程误导的人。出于这个原因,我决定写一篇对这些概念的合理介绍,并详细阐述它们之间的关系和隐藏的交互作用,同时试图解释公式的每一步。我希望能带来一些新的东西来帮助人们理解这些原则。
最大似然估计
最大似然估计是一种用于估计给定观测值的模型参数的方法或原理。极大似然估计又简称MLE,又称极大似然估计法。从这个名字,你可能已经理解了这个原理是通过最大化似然来工作的,因此,理解最大似然估计的关键是首先理解什么是似然,以及为什么有人想要最大化它来估计模型参数。
让我们从连续情况下似然函数的定义开始:
$$\mathcal{L}(\theta | x)=p{\theta}(x)$$
左边的项表示“参数的可能性\(\theta\),给定数据\(x\)”。这是什么意思呢?它意味着在连续的情况下,参数化的模型(p_{theta}(x)\)和数据\(x\)的可能性是具有特定参数化的模型的概率密度函数(pdf)。
Although this is the most used likelihood representation, you should pay attention that the notation \(\mathcal{L}(\cdot | \cdot)\) in this case doesn’t mean the same as the conditional notation, so be careful with this overload, because it is always implicitly stated and it is also often a source of confusion. Another representation of the likelihood that is often used is \(\mathcal{L}(x; \theta)\), which is better in the sense that it makes it clear that it’s not a conditional, however, it makes it look like the likelihood is a function of the data and not of the parameters.
模型(p{theta}(x))可以是任何分布,为了具体化,假设数据生成分布是一个单变量高斯分布,我们定义如下:
$$ \ {开始}对齐 P(X)&\ SIM \ mathcal {N}(\亩,\西格马^ 2)\\ p (x);\μ、σ^ 2)& \ sim \压裂{1}{\ sqrt{2 \π\σ^ 2}}\ exp{\境[- \压裂{1}{2}\境(\压裂{x - \μ}{\σ}\境)^ 2 \境]} 结束\{对齐} $$
如果你用不同的参数绘制这个概率密度函数,你会得到如下图,其中红色分布是标准高斯\(p(x) \sim \mathcal{N}(0,1.0)\):
188bet app
正态分布概率密度函数的一种选择。平均值μ和方差σ2都是不同的。图上给出了键。来源 :维基共享资源。
正如可以在上面的概率密度函数(pdf)图看到的,\(X \)在各种给定的实现的可能性是显示,在y轴。这里混乱的另一个原因是,通常情况下,人们把这个作为一个概率,因为他们平时看到的法线的这些情节和可能性总是低于1,但是,概率密度函数不给你的概率,但密度。对PDF格式的限制是它必须集成到一个:
$$\int{-\infty}^{++\infty}f(x)dx=1$$
所以,这是完全正常的有密度大于1的点多了许多不同的分布。举个例子为PDF格式贝塔分布 下表:
188bet开户注册平台
β分布的概率密度函数。资料来源:维基媒体共享。
正如可以看到,在示出PDF密度上面一个在分布的许多参数化,同时仍纳入1和如下的概率的第二公理:单位测量。
所以,回到我们原来的最大似然估计的原则,我们要的是最大限度的可能性\(\ mathcal {L}(\ THETA | X)\),我们观察到的数据。这意味着在实用性方面是我们要找到这些参数\(\ THETA \),我们的模型,其中生成我们的数据这种模式的可能性最大的,我们要找出哪些这个模型的参数是最合理 已经产生的这个观测数据,或者是什么,使这个样品最可能的参数?
对于我们的单变量高斯模型,我们需要的是找到参数\(\mu)和\(\sigma^2),为了便于表示,我们将其折叠成一个参数向量:
$ $ {bmatrix}开始\θ= \ \μ\ \ \σ^ 2 \ {bmatrix} $ $
因为这些是完全定义我们的单变量高斯模型的统计信息。因此,让我们制定的最大似然估计的问题:
$$ \ {开始}对齐 {\ \帽子θ}& = \ mathrm {arg} \ max_ \θ\ mathcal {L} \ \ \θ| x &= \ mathrm {ARG} \ MAX_ \ THETA P 450 {\ THETA}(x)的 结束\{对齐} $$
这就是说,我们要获得最大似然估计\(\帽子{\ THETA} \)近似\(P _ {\ THETA}(X)\)的潜在“真”分配\(P _ {\ THETA ^ *}(X)\)通过最大化的参数的可能性\给出(\ THETA \)数据\(X \)。You shouldn’t confuse a maximum likelihood estimate \(\hat{\theta}(x)\) which is a realization of the maximum likelihood estimator for the data \(x\), with the maximum likelihood estimator \(\hat{\theta}\), so pay attention to disambiguate it in your head.
然而,我们需要在这个公式中包含多个观测值,通过添加多个观测值,我们最终得到一个复杂的联合分布:
$ $ \帽子{\θ}= \ mathrm {arg} \ max_ \θp_{\θ}(x_1、x_2 \ ldots x_n) $ $
这需要考虑到所有观察结果之间的相互作用。在这里我们做了一个强有力的假设:我们声明观察结果是独立的 . 独立随机变量意味着以下结论成立:
$$p{\theta}(x{1,x}2,ldots,x})=\prod{i=1}^{n}p{\theta}(x}i)$$
这意味着,由于\(x_1, x_2, \ldots, x_n\)不包含彼此的信息,我们可以把联合概率写成它们边长的乘积。
另一个假设是,这些随机变量同分布 ,这意味着它们来自相同的生成分布,这允许我们使用相同的分布参数化对其建模。
考虑到这两个假设,也就是IID公司 (独立同分布),我们可以制定我们的最大似然估计的问题,因为:
$$\hat{\theta}=\mathrm{arg}\max{theta\prod{i=1}^{n}p{\theta}(x}i)$$
请注意,MLE并不要求您做出这些假设,但是,如果您不这样做,就会出现许多问题,例如每个样本的不同分布或必须处理联合概率。
鉴于在许多情况下,这些密度,我们乘可以非常小,乘以在产品中另外一个,我们有上面我们可以用非常小的值结束。亚洲金博宝这里是对数函数使得其可能性的方式。日志功能是严格单调递增函数,即保留的位置极值 并且有一个非常好的特亚洲金博宝性:
$$ \ LOG AB = \记录一个+ \日志b $$
其中一个乘积的对数是对数之和,这对我们来说非常方便,所以我们将对数应用到可能性上,使所谓的亚洲金博宝对数似 :
$$ \ {开始}对齐 \帽子{\ THETA}&= \ mathrm {ARG} \ MAX_ \ THETA \ prod_ {I = 1} ^ {N} p _ {\ THETA}(X_I)\\ &= \ mathrm {ARG} \ MAX_ \ THETA \ sum_ {I = 1} ^ {N} \的log P _ {\ THETA}(X_I)\\ 结束\{对齐} $$
正如你所看到的,我们从一个积变成一个求和,这样就方便多了。应用对数的另一个原因是,我们经常取导数,然后求出它的参数,因此求和比求乘法容易得多。
我们还可以方便地平均对数似然(假设我们只是把一个乘法和一个常数相加 ):
$$ \ {开始}对齐 {\ \帽子θ}& = \ mathrm {arg} \ max_ \θ\ sum_ {i = 1} ^ {n} \ log p_{\θ}(x_i) \ \ &=\mathrm{arg}\max\theta\frac{1}{n}\sum{i=1}^{n}\log p{\theta}(x}i)\\ 结束\{对齐} $$
这也是方便,因为它会拿出依赖于观测的数量。我们也知道,通过大数定律 ,以下为\(n\to\infty\):
$$ \frac{1}{n}\sum{i=1}^{n}\log\,p{\theta}(x_i)\approx\mathbb{E}ux\sim p{\theta^*}(x)}\left[\log\,p{\theta}(x)] $$
如你所见,我们用经验预期 由我们的数据集定义。这是一个重要的观点,通常是含蓄的假设。
弱大数定律可以用切比雪夫定界来定界,如果你对浓度不等式感兴趣,我已经188asia.net 在那里我讨论了切比雪夫约束。
为了完成我们的公式,考虑到我们通常最小化目标,我们可以将最大似然估计与对数似然负的最小化公式相同:
$$ \hat{\theta}=\mathrm{arg}\min\theta-\mathbb{E}{x\sim p{\theta^*}(x)}\left[\log\,p{\theta}(x)\ right] $$
这和否定把最大化问题转化为最小化问题是完全一样的。
最大似然估计的从信息论的相对熵的关系
众所周知,最大化可能性与最小化Kullback-Leibler散度 ,也称为KL散度。这很有趣,因为它将亚洲金博宝信息论 用极大似然原理。
KL发散定义为:
$$ \开始{方程式} D_ {KL}(P || Q)= \ INT P(X)\日志\压裂{P(X)} {Q(X)} \ DX \结束{方程式} $$
有许多直觉理解KL散度,我个人很喜欢的角度似然比 然而,也有很多关于它的资料,你可以很容易找到,它是此介绍的范围了。
KL散度基本上是对数似然比在\(p(x)\)分布下的期望。下面我们要做的就是用期望的一些恒等式和属性来重新表述它
$$ \ {开始}对齐 D{KL}[p{\theta ^*}(x)\,\Vert\,p\theta(x)&=\mathbb{E}{x\sim p{\theta ^*}(x)}\left[\log\frac{p{\theta ^*}(x)}{p\theta(x)}\right]\\ {情商:logquotient} \标签 &= \ mathbb {E} _ {X \ SIM P 450 {\ THETA ^ *}(X)} \左[\ LOG \,P _ {\ THETA ^ *}(X) - \日志\,P_ \ THETA(X) \对] \\ {情商:线性化}\标签 & = \ mathbb {E} _ {x \ sim p_{\θ^ *}(x)} \ underbrace左{\ [\ log \, p_{\θ^ *}(x) \]} _{{熵}\文本p_{\θ^ *}(x)} - \ underbrace {\ mathbb {E} _ {x \ sim p_{\θ^ *}(x)}左\ [\ log \, p_{\θ}(x) \]} _{\文本{负对数似}} 结束\{对齐} $$
在上面的公式中,我们首先使用一个事实,即商的对数等于分子和分母的对数之差(等式{eq:logquotient})。在那之后,我们使用期望的线性化(方程\([ref{eq:linearization}]),它告诉我们,\(\mathbb{E}\left[X+Y\right]=\mathbb{E}\left[X\right]+\mathbb{E}\left[Y\right]])。最后,我们剩下两个条件,左边第一个是熵 和一个你可以识别为右对数似然负 我们在前面看到的。
如果我们想最小化θ的KL发散,我们可以忽略第一项,因为它在任何方面都不依赖θ,最后我们得到了与我们之前看到的完全相同的最大似然公式:
$$ \开始{eqnarray} \需要{取消} \ THETA ^ * =&\ mathrm {ARG} \ min_ \ THETA \取消{\ mathbb {E} _ {X \ SIM P 450 {\ THETA ^ *}(X)} \左[\ LOG \,P _ {\THETA ^ *}(X)\右]} - \ mathbb {E} _ {X \ SIM p 450 {\ THETA ^ *}(X)} \左[\ LOG \,p _ {\ THETA}(X)\右] \\ &=&\mathrm{arg}\min\theta-\mathbb{E}{x\sim p{\theta^*}(x)}\left[\log',p{\theta}(x)right] \结束{eqnarray} $$
条件对数似
在机亚洲金博宝器学习很常见的情况是监督学习,在那里我们有数据点\(x_n \)和它们的标签\(y_n \)建立了数据集\(d = \ {(X_1,Y_1),(X_2,Y_2),\ldots, (x_n, y_n) \} \), where we’re interested in estimating the conditional probability of \(\textbf{y}\) given \(\textbf{x}\), or more precisely \( P_{\theta}(Y | X) \).
最大似然原则延伸到有条件的情况下,我们就必须把它写成:
$$ \帽子{\θ}= \ mathrm {arg} \ min_ \θ- \ mathbb {E} _ {x \ sim p_{\θ^ *}(y | x)} \离开[\ log \, p_{\θ}(y | x) \] $$
然后,它可以很容易地推广制定了线性回归:
$$ P 450 {\ THETA}(Y | X)\ SIM \ mathcal {N}(X ^ T \ THETA,\西格马^ 2)\\ p{\theta}(y | x)=-n\log\sigma–\frac{n}{2}\log{2\p i}–\sum{i=1}^{n}{\frac{x{i^T\theta–y{2\sigma^2} $$
在这种情况下,你可以看到,我们最终得到的平方误差的总和,将具有相同位置的最佳平均平方误差(MSE)。所以你可以看到最小化MSE等价于最大化高斯模型的可能性。
关于极大似然的注记
最大似然估计具有非常有趣的性质,但它只是给我们亚洲金博宝点估计 ,这意味着我们无法对这些估计值的分布进行推理。相比之下,贝叶斯推理可以给出参数的完全分布,因此将允许我们关于后验分布的原因 .
I’ll write more about Bayesian inference and sampling methods such as the ones from the Markov Chain Monte Carlo (MCMC) family, but I’ll leave this for another article, right now I’ll continue showing the relationship of the maximum likelihood estimator with the maximum a posteriori (MAP) estimator.
最大值后验
尽管最大后验概率(也称为MAP)也为我们提供了一个点估计,但它是一个贝叶斯概念,包含了参数上的先验。我们还将看到,映射与正则MLE估计有很强的联系。
我们从Bayes规则中知道,我们可以从似然和先验的乘积中得到后验,并通过证据进行规范化:
$$ \ {开始}对齐 P(\ THETA \ VERT X)= \压裂{P _ {\ THETA}(x)的P(\ THETA)} {P(X)} \\ \标签{EQ:PROPORT} &\投影{\theta}(x)p(\theta) 结束\{对齐} $$
在方程(eq:proportt)中,由于我们担心优化问题,我们取消了标准化证据(p(x))并保持了比例后验,这是非常方便的,因为(p(x))的边缘化涉及积分,在许多情况下是难以处理的。亚洲金博宝
$$ \ {开始}对齐 地图\ theta_ {} & = \ mathop {\ rm arg \马克斯}\ limits_{\θ}p_{\θ}p (x)θ(\)\ \ & = \ mathop {\ rm arg \马克斯}\ limits_{\θ}\ prod_ {i = 1} ^ {n} p_{\θ}(x_i) p(θ)\ \ \ &=\mathop{\rm arg\,max}\limits{\theta}\sum{i=1}^{n}\underbrace{\log p{\theta}(x{i)}\text{log likelihood}\underbrace{p(\theta)} 结束\{对齐} $$
在上面的公式中,我们只是遵循前面描述的最大似然估计的相同步骤,我们假设独立性和相同的分布设置,然后对数应用程序从乘积切换到求和。正如您在最终公式中看到的,这相当于最大似然估计乘以前一项。
我们还可以通过使用统一的先验(p(\theta)sim\textbf{U}(\cdot,\cdot)来轻松地恢复精确的最大似然估计。这意味着每一个可能的“(\theta”)值的权重都是相等的,这意味着它只是一个常数乘法:亚洲金博宝
$$ \ {开始}对齐 \theta{MAP}&=\mathop{\rm arg\,max}\limits{\theta}\sum\log p{\theta}(x_i)p(\theta)\\ &=\mathop{\rm arg\,max}\limits{\theta}\sum\log p{\theta}(x\u i)\,\text{constant}\\ &= \下括号{\mathop{\rm arg\,max}\limits_{\theta} \sum_i \log p_{\theta}(x_i)}_{\text{等价于极大似然估计(MLE)}} \\ 结束\{对齐} $$
你瞧,具有均匀的MAP之前相当于MLE。它也很容易表明,高斯先验可以恢复L2正规化MLE。这是很有趣的,因为它可以提供正规化方面的见解和新的视角,我们平时使用。
我希望你喜欢这篇文章!下一个会是关于贝叶斯推理与采样后,我们将展示我们如何推理后验分布,而不是只对所看到的MAP和MLE点估计。
——克里斯蒂安·S·佩隆