它是令人沮丧的原理,如最大似然估计(MLE),最大后验(MAP)和贝叶斯推理一般。在我看来,造成这种困难的主要原因是,许多教程假设已经有了知识,使用隐式或不一致的表示法,或者甚至解决了完全不同的概念,从而重载了这些原则。
这些上述问题作出新人理解这些概念很混乱,而且我经常谁是不幸被很多教程误导亚洲金博宝人面对。出于这个原因,我决定写一个健全的介绍,这些概念和更多地讨论他们的关系和隐藏的交互,同时试图解释配方的每一步。亚洲金博宝我希望能帮助人们理解这些原则带来新的东西。
最大似然估计
最大似然估计是用于估计的模型给定观测或观察一个或多个参数的方法或原理。最大似然估计也可简称为MLE,并且它也被称为最大似然的方法。从这个名字,你可能已经明白,这一原则的作品通过最大化的可能性,因此,关键要了解的最大似然估计是先了解一下这样的可能性,为什么会有人想它最大化,以便估计模型参数。
让我们从连续情况下似然函数的定义开始:
$$\mathcal{L}(\theta | x)=p{\theta}(x)$$
左边的术语是指“给定数据的参数的可能性”(theta)。那是什么意思?这意味着在连续情况下,具有参数化的模型(p{theta}(x))和数据(x)的可能性是具有该特定参数化的模型的概率密度函数(pdf)。
尽管这是最常用的似然表示法,但您应该注意,在这种情况下,符号“(\mathcal{L}(\cdot |\cdot)\”与条件符号的含义不同,因此请小心处理此重载,因为它总是隐式声明的,而且常常是混淆的来源。另一种常用的似然表示法是\(\mathcal{L}(x;\theta)\),这在某种意义上更好,因为它清楚地表明它不是条件,但是,它使似然看起来像是数据的函数,而不是参数的函数。
模型(p{theta}(x))可以是任何分布,为了具体化,假设数据生成分布是一个单变量高斯分布,我们定义如下:
$$ 开始\{对齐} p(x)&\sim\mathcal{N}(\mu,sigma^2)\\ P(X; \亩,\西格马^ 2)&\ SIM \压裂{1} {\ SQRT {2 \ PI \西格马^ 2}} \ EXP {\比格[ - \压裂{1} {2} \比格(\压裂{x轴\亩} {\西格玛} \比格)^ 2 \比格]} \ {端对齐} $$
如果你用不同的参数来绘制概率密度函数,你会得到如下的图,其中红色分布是标准高斯分布(p(x)sim\mathcal{N}(0,1.0)\):
188bet app
正态分布概率密度函数(PDFs)的选择。平均值(an)和方差(an)都是可变的。图中给出了关键。来源 :维基共享。
正如您在上面的概率密度函数(pdf)图中所看到的,在各种给定的实现情况下,(x)的可能性显示在y轴上。这里的另一个混乱来源是,人们通常把它当作概率,因为他们通常看到这些正态分布图,并且概率总是小于1,然而,概率密度函数并没有给出概率,而是给出密度。对pdf的限制是它必须集成到一个:
$$ int_{-\infty}^{+\infty} f(x)dx = 1$$
所以,对于很多不同的分布来说,很多点的密度大于1是完全正态的。以pdf为例β分布 下面:
188bet开户注册平台
分布的概率密度函数。来源:维基共享。
正如你所看到的,pdf显示了密度在分布的许多参数中的一个以上,同时仍然集成到1中并遵循概率的第二个公理:单位度量。
因此,回到我们最初的最大似然估计原则,我们想要的是最大化我们观测数据的可能性\(\mathcal{L}(\theta | x)\)。在实践中,这意味着我们要找到模型的参数\(\theta\),使模型生成数据的可能性最大化,我们要找到哪个参数这个模型的参数是最合理的 要生成这些观测数据,或者是什么参数使这个样本最有可能?
对于我们的单变量高斯模型,我们需要的是找到参数\(\mu)和\(\sigma^2),为了便于表示,我们将其折叠成一个参数向量:
$ $ {bmatrix}开始\θ= \ \μ\ \ \σ^ 2 \ {bmatrix} $ $
因为这些统计量完全定义了我们的单变量高斯模型。那么,让我们来构建最大似然估计的问题:
$$ 开始\{对齐} \帽子{\ THETA}&= \ mathrm {ARG} \ MAX_ \ THETA \ mathcal {L}(\ THETA | X)\\ & = \ mathrm {arg} \ max_ \θp_{\θ}(x) \ {端对齐} $$
这就是说,我们要获得最大似然估计\(\帽子{\ THETA} \)近似\(P _ {\ THETA}(X)\)的潜在“真”分配\(P _ {\ THETA ^ *}(X)\)通过最大化的参数的可能性\给出(\ THETA \)数据\(X \)。You shouldn’t confuse a maximum likelihood estimate \(\hat{\theta}(x)\) which is a realization of the maximum likelihood estimator for the data \(x\), with the maximum likelihood estimator \(\hat{\theta}\), so pay attention to disambiguate it in your head.
但是这个公式需要加入多个观测值,通过加入多个观测值,得到一个复杂的联合分布:
$$\hat{\theta}=\mathrm{arg}\max\theta p{\theta}(x_1,x_2,ldots,x_n)$$
这需要考虑到所有观测之间的相互作用。这里我们做了一个强有力的假设:我们声明观察是独立的 . 独立随机变量意味着以下结论成立:
$$p{\theta}(x{1,x}2,ldots,x})=\prod{i=1}^{n}p{\theta}(x}i)$$
也就是说,由于(xÓ1,xÓ2,ldots,x劬n)不包含彼此的信息,我们可以把联合概率写成它们的边值的乘积。
这是由另一个假设是,这些随机变量同分布 ,这意味着它们来自相同的生成分布,这允许我们用相同的分布参数化建模。
考虑到这两个假设,也就是IID公司 (独立且相同分布),我们可以将我们的最大似然估计问题表述为:
$$\hat{\theta}=\mathrm{arg}\max{theta\prod{i=1}^{n}p{\theta}(x}i)$$
注意,MLE并不要求您做出这些假设,但是,如果不这样做,将会出现许多问题,例如每个样本的分布不同,或者必须处理联合概率。
假设在很多情况下,我们乘的密度可以很小,在上面的积中,我们乘一乘另一,我们可以得到很小的值。这里是对数函数通向似然的地方。log函亚洲金博宝数是一个严格单调递增函数,它保留了极值 它有一个很好的特性亚洲金博宝
$$ \ LOG AB = \记录一个+ \日志b $$
乘积的对数是对数的和,这对我们来说很方便,所以我们将对数应用于最大化所谓的亚洲金博宝数似然 :
$$ 开始\{对齐} {\ \帽子θ}& = \ mathrm {arg} \ max_ \θ\ prod_ {i = 1} ^ {n} p_{\θ}(x_i) \ \ & = \ mathrm {arg} \ max_ \θ\ sum_ {i = 1} ^ {n} \ log p_{\θ}(x_i) \ \ \ {端对齐} $$
正如你看到的,我们从一个乘积变成了一个求和,这更方便。使用对数的另一个原因是我们经常求导并求解参数,因此求和比乘法容易得多。
我们还可以方便地平均对数似然(因为我们只是其中一个常数乘法 ):
$$ 开始\{对齐} \帽子{\ THETA}&= \ mathrm {ARG} \ MAX_ \ THETA \ sum_ {I = 1} ^ {N} \的log P _ {\ THETA}(X_I)\\ & = \ mathrm {arg} \ max_ \θ\压裂{1}{n} \ sum_ {i = 1} ^ {n} \ log p_{\θ}(x_i) \ \ \ {端对齐} $$
这也很方便,因为它将消除对观测数量的依赖。我们也知道,通过大数定律 ,以下为\(n\to\infty\):
$$ \frac{1}{n}\sum{i=1}^{n}\log\,p{\theta}(x_i)\approx\mathbb{E}ux\sim p{\theta^*}(x)}\left[\log\,p{\theta}(x)] $$
正如你所看到的,我们正在接近与期望经验预期 由我们的数据集定义。这是一个重要的观点,通常是含蓄的假设。
弱大数定律可以用切比雪夫界限来界定,如果你对浓度不等式感兴趣,我已经做了188asia.net 这里我讨论了切比雪夫边界。
为了完成我们的公式,考虑到我们通常最小化目标,我们可以将最大似然估计与对数似然负的最小化公式相同:
$$ \帽子{\ THETA} = \ mathrm {ARG} \ min_ \ THETA - \ mathbb {E} _ {X \ SIM P 450 {\ THETA ^ *}(X)} \左[\ LOG \,P _ {\ THETA}(x)的\权利] $$
这和否定把最大化问题转化为最小化问题是完全一样的。
最大似然估计的从信息论的相对熵的关系
众所周知,最大化可能性与最小化Kullback-Leibler散度 ,也称为KL散度。这很有趣,因为它连亚洲金博宝接了一个度量信息论 用极大似然原理。
KL发散定义为:
$$ \开始{方程式} D_ {KL} (p | | q = \ int p (x) \ log \压裂{p (x)}{问(x)} \ dx \结束{方程式} $$
有许多直觉理解KL散度,我个人很喜欢的角度似然比 但是,您可以很容易地找到关于它的大量资料,并且它超出了本介绍的范围。
KL散度基本上是对数似然比在p(x)分布下的期望值。我们在下面所做的只是使用期望的一些恒等式和属性来重新表述它:
$$ 开始\{对齐} D_ {KL} [p_{\θ^ *}(x) \ \绿色\,p_ \θ(x)] & = \ mathbb {E} _ {x \ sim p_{\θ^ *}(x)} \离开[\ log \压裂{p_{\θ^ *}(x)} {p_ \θ(x)} \右]\ \ \标签{eq:logquotient} &= \ mathbb {E} _ {X \ SIM P 450 {\ THETA ^ *}(X)} \左[\ LOG \,P _ {\ THETA ^ *}(X) - \日志\,P_ \ THETA(X) \对] \\ \标签{EQ:线性} & = \ mathbb {E} _ {x \ sim p_{\θ^ *}(x)} \ underbrace左{\ [\ log \, p_{\θ^ *}(x) \]} _{{熵}\文本p_{\θ^ *}(x)} - \ underbrace {\ mathbb {E} _ {x \ sim p_{\θ^ *}(x)}左\ [\ log \, p_{\θ}(x) \]} _{\文本{负对数似}} \ {端对齐} $$
在上面的配方中,我们首先使用的事实的商的对数等于所述分子和分母的日志的差(方程\(\ REF {当量:logquotient} \))。之后,我们使用期望的线性化(方程\(\ REF {当量:线性} \)),其告诉我们,\(\ mathbb {E} \左[X + Y \右] = \ mathbb {E}\左[X \右] + \ mathbb {E} \左[Y \右] \)。最后,我们只剩下两个学期,在左边第一个是熵 右边的这个是负的对数似然 我们之前看到的。
如果我们想最小化θ的KL发散,我们可以忽略第一项,因为它在任何方面都不依赖θ,最后我们得到了与我们之前看到的完全相同的最大似然公式:
$$ \开始{eqnarray} \需要【取消】 \ THETA ^ * =&\ mathrm {ARG} \ min_ \ THETA \取消{\ mathbb {E} _ {X \ SIM P 450 {\ THETA ^ *}(X)} \左[\ LOG \,P _ {\THETA ^ *}(X)\右]} - \ mathbb {E} _ {X \ SIM p 450 {\ THETA ^ *}(X)} \左[\ LOG \,p _ {\ THETA}(X)\右] \\ & = & \ mathrm {arg} \ min_ \θ- \ mathbb {E} _ {x \ sim p_{\θ^ *}(x)} \离开[\ log \, p_{\θ}(x) \] 结束\ {eqnarray} $$
条件对数似然
机器亚洲金博宝学习中一个非常常见的场景是监督学习,我们有数据点(xun)和它们的标签(yun)来建立我们的数据集(D={(x 1,y1),(x 2,y2),\ldots,(xun,yun)}),我们感兴趣的是估计给定的条件概率(textbf{y}),或者更精确地说。
要将极大似然原理推广到条件情况,我们只需将其写成:
$$ \帽子{\θ}= \ mathrm {arg} \ min_ \θ- \ mathbb {E} _ {x \ sim p_{\θ^ *}(y | x)} \离开[\ log \, p_{\θ}(y | x) \] $$
然后,它可以很容易地推广制定了线性回归:
$$ p_{\θ}(y | x) \ sim \ mathcal {N} (x ^ T \θ,\σ^ 2)\ \ P 450 {\ THETA}(Y | X)= -n \日志\西格玛 - \压裂{N} {2} \日志{2 \ PI} - \ sum_ {I = 1} ^ {N} {\压裂{\|X_I ^ T \ theta - 用Y_I \ |} {2 \西格玛^ 2}} $$
在这种情况下,你可以看到,我们最终得到的平方误差之和,将具有相同的位置的最佳均方误差(MSE)。所以你可以看到最小化MSE等于最大化高斯模型的可能性。
关于最大可能性的评论
极大似然估计有很有趣的性质但它只给我们亚洲金博宝点估计 ,这意味着我们可以不原因这些估计的分布。相比之下,贝叶斯推理可以给我们在参数的完整分布,因此将允许我们关于后验分布的原因 。
我将写更多关于贝叶斯推断和抽样方法的内容,比如来自马尔可夫链蒙特卡洛(MCMC)族的方法,但我将把这个留给另一篇文章,现在我将继续展示最大似然估计和最大后验(MAP)估计的关系。
最大后验
尽管最大后验概率(也称为MAP)也为我们提供了一个点估计,但它是一个贝叶斯概念,包含了参数上的先验。我们还将看到,映射与正则MLE估计有很强的联系。
我们从贝叶斯法则知道,我们可以从可能性和之前的,由证据标准化的产品得到了后路:
$$ 开始\{对齐} p(\theta\vert x)&=\frac{p{\theta}(x)p(\theta)}{p(x)}\\ {情商:proport} \标签 &\ propto P 450 {\ THETA}(x)的P(\ THETA) \ {端对齐} $$
在方程(eq:proportt)中,由于我们担心优化问题,我们取消了标准化证据(p(x))并保持了比例后验,这是非常方便的,因为(p(x))的边缘化涉及积分,在许多情况下是难以处理的。亚洲金博宝
$$ 开始\{对齐} \θ{MAP}&=\mathop{\rm arg\,max}\limits{\theta}p{\theta}(x)p(\theta)\\ &=\mathop{\rm arg\,max}\limits{\theta}\prod{i=1}^{n}p{\theta}(x_i)p(\theta)\\ &=\mathop{\rm arg\,max}\limits{\theta}\sum{i=1}^{n}\underbrace{\log p{\theta}(x{i)}\text{log likelihood}\underbrace{p(\theta)} \ {端对齐} $$
在该制剂中的上方,我们只是遵守与最大似然估计前面描述的相同的步骤,假定独立和相同的分布设置,由对数应用到开关从一个产品到求和以后跟着。正如可以在最终配方中看到的,这是等价的最大似然估计乘以现有术语。
我们也可以通过使用统一先验\(p(\theta) \sim \textbf{U}(\cdot, \cdot)\)轻松地恢复精确的最大似然估计量。这意味着所有可能的\(\theta亚洲金博宝\)都是等权重的,也就是说它只是一个常数乘法
$$ 开始\{对齐} \ theta_ {MAP}&= \ mathop {\ RM ARG \,最大} \限制_ {\ THETA} \ sum_i \的Log P _ {\ THETA}(X_I)P(\ THETA)\\ & = \ mathop {\ rm arg \马克斯}\ limits_{\θ}\ sum_i \ log p_{\θ}(x_i) \ \{常数}\ \文本 &=\underbrace{\mathop{\rm arg\,max}\limits{\theta}\sum{i\log p{\theta}(x{i)}\text{相当于最大似然估计(MLE)}\\ \ {端对齐} $$
你瞧,具有均匀的MAP之前相当于MLE。它也很容易表明,高斯先验可以恢复L2正规化MLE。这是很有趣的,因为它可以提供正规化方面的见解和新的视角,我们平时使用。
希望你喜欢这篇文章!下一个是关于后验抽样的贝叶斯推断,在这里我们将展示如何对后验分布进行推理,而不仅仅是在MAP和MLE中看到的点估计。
——克里斯蒂安·S·佩隆