# 最大似然估计(MLE)和最大后验(MAP)的合理介绍

## 最大似然估计

$$\ mathcal {L}（\ THETA | X）= P _ {\ THETA}（x）的$$

Although this is the most used likelihood representation, you should pay attention that the notation $$\mathcal{L}(\cdot | \cdot)$$ in this case doesn’t mean the same as the conditional notation, so be careful with this overload, because it is always implicitly stated and it is also often a source of confusion. Another representation of the likelihood that is often used is $$\mathcal{L}(x; \theta)$$, which is better in the sense that it makes it clear that it’s not a conditional, however, it makes it look like the likelihood is a function of the data and not of the parameters.

$$\ {开始}对齐 P（X）＆\ SIM \ mathcal {N}（\亩，\西格马^ 2）\\ P（X; \亩，\西格马^ 2）＆\ SIM \压裂{1} {\ SQRT {2 \ PI \西格马^ 2}} \ EXP {\比格[ - \压裂{1} {2} \比格（\压裂{x轴\亩} {\西格玛} \比格）^ 2 \比格]} \ {端对齐}$$

$$\ INT _ { - \ infty} ^ {+ \ infty} F（X）DX = 1$$

 {bmatrix}开始\θ= \ \μ\ \ \σ^ 2 \ {bmatrix} 

$$\ {开始}对齐 \帽子{\ THETA}＆= \ mathrm {ARG} \ MAX_ \ THETA \ mathcal {L}（\ THETA | X）\\ & = \ mathrm {arg} \ max_ \θp_{\θ}(x) \ {端对齐}$$

 \帽子{\θ}= \ mathrm {arg} \ max_ \θp_{\θ}(x_1、x_2 \ ldots x_n) 

 p_{\θ}(x_1、x_2 \ ldots x_n) = \ prod_ {i = 1} ^ {n} p_{\θ}(x_i) 

$$\帽子{\ THETA} = \ mathrm {ARG} \ MAX_ \ THETA \ prod_ {I = 1} ^ {N} p _ {\ THETA}（X_I）$$

$$\log ab = \log a + \log b$$

$$\ {开始}对齐 \帽子{\ THETA}＆= \ mathrm {ARG} \ MAX_ \ THETA \ prod_ {I = 1} ^ {N} p _ {\ THETA}（X_I）\\ ＆= \ mathrm {ARG} \ MAX_ \ THETA \ sum_ {I = 1} ^ {N} \的log P _ {\ THETA}（X_I）\\ \ {端对齐}$$

$$\ {开始}对齐 \帽子{\ THETA}＆= \ mathrm {ARG} \ MAX_ \ THETA \ sum_ {I = 1} ^ {N} \的log P _ {\ THETA}（X_I）\\ ＆= \ mathrm {ARG} \ MAX_ \ THETA \压裂{1} {N} \ {sum_ I = 1} ^ {N} \的log P _ {\ THETA}（X_I）\\ \ {端对齐}$$

$$\压裂{1} {N} \ sum_ {I = 1} ^ {N} \日志\，P _ {\ THETA}（X_I）\约\ mathbb {E} _ {X \ SIM P 450 {\ THETA ^ *}（X）} \左[\日志\，p _ {\ THETA}（X）\右]$$

$$\帽子{\ THETA} = \ mathrm {ARG} \ min_ \ THETA - \ mathbb {E} _ {X \ SIM P 450 {\ THETA ^ *}（X）} \左[\ LOG \，P _ {\ THETA}（x）的\权利]$$

### 最大似然估计的从信息论的相对熵的关系

$$开始\{方程} D_ {KL}（P || Q）= \ INT P（X）\日志\压裂{P（X）} {Q（X）} \ DX 结束\{方程}$$

KL散度基本上是对数似然比在$$p(x)$$分布下的期望。下面我们要做的就是用期望的一些恒等式和属性来重新表述它

$$\ {开始}对齐 D_ {KL} [P _ {\ THETA ^ *}（X）\，\ Vert的\，P_ \ THETA（x）]的＆= \ mathbb {E} _ {X \ SIM P 450 {\ THETA ^ *}（x）的} \左[\ LOG \压裂{p _ {\ THETA ^ *}（X）} {P_ \ THETA（X）} \右] \\ \标签{EQ：logquotient} & = \ mathbb {E} _ {x \ sim p_{\θ^ *}(x)} \离开[\ log \, p_{\θ^ *}(x) - \ log \, p_ \θ(x) \] \ \ \标签{EQ：线性} & = \ mathbb {E} _ {x \ sim p_{\θ^ *}(x)} \ underbrace左{\ [\ log \, p_{\θ^ *}(x) \]} _{{熵}\文本p_{\θ^ *}(x)} - \ underbrace {\ mathbb {E} _ {x \ sim p_{\θ^ *}(x)}左\ [\ log \, p_{\θ}(x) \]} _{\文本{负对数似}} \ {端对齐}$$

If we want to minimize the KL divergence for the $$\theta$$, we can ignore the first term, since it doesn’t depend of $$\theta$$ in any way, and in the end we have exactly the same maximum likelihood formulation that we saw before:

$$开始\ {eqnarray} \需要【取消】 \θ^ * & = & \ mathrm {arg} \ min_ \θ\取消{\ mathbb {E} _ {x \ sim p_{\θ^ *}(x)} \离开[\ log \, p_{\θ^ *}(x) \]} - \ mathbb {E} _ {x \ sim p_{\θ^ *}(x)} \离开[\ log \, p_{\θ}(x) \] \ \ & = & \ mathrm {arg} \ min_ \θ- \ mathbb {E} _ {x \ sim p_{\θ^ *}(x)} \离开[\ log \, p_{\θ}(x) \] 结束\ {eqnarray}$$

### 有条件的数似然

$$\帽子{\θ}= \ mathrm {arg} \ min_ \θ- \ mathbb {E} _ {x \ sim p_{\θ^ *}(y | x)} \离开[\ log \, p_{\θ}(y | x) \]$$

$$P 450 {\ THETA}（Y | X）\ SIM \ mathcal {N}（X ^ T \ THETA，\西格马^ 2）\\ p_{\θ}(y | x) = - n \ log \σ- \压裂{n} {2} \ log{2 \π}- \ sum_ {i = 1} ^ {n}{\压裂{\ | x_i ^ T \θ- y_i \ |}{2 \σ^ 2}}$$

### 备注最大似然

I’ll write more about Bayesian inference and sampling methods such as the ones from the Markov Chain Monte Carlo (MCMC) family, but I’ll leave this for another article, right now I’ll continue showing the relationship of the maximum likelihood estimator with the maximum a posteriori (MAP) estimator.

## 最大后验

$$\ {开始}对齐 P（\ THETA \ VERT X）= \压裂{P _ {\ THETA}（x）的P（\ THETA）} {P（X）} \\ \标签{EQ：PROPORT} ＆\ propto P 450 {\ THETA}（x）的P（\ THETA） \ {端对齐}$$

$$\ {开始}对齐 \ theta_ {MAP}＆= \ mathop {\ RM ARG \，最大} \限制_ {\ THETA} p _ {\ THETA}（x）的P（\ THETA）\\ & = \ mathop {\ rm arg \马克斯}\ limits_{\θ}\ prod_ {i = 1} ^ {n} p_{\θ}(x_i) p(θ)\ \ \ & = \ mathop {\ rm arg \马克斯}\ limits_{\θ}\ sum_ {i = 1} ^ {n} \ underbrace {\ log p_{\θ}(x_i)} _{\文本日志可能性}{}\ underbrace {p(\θ)}_{\文本之前{}} \ {端对齐}$$

$$\ {开始}对齐 地图\ theta_ {} & = \ mathop {\ rm arg \马克斯}\ limits_{\θ}\ sum_i \ log p_{\θ}(x_i) p(θ)\ \ \ & = \ mathop {\ rm arg \马克斯}\ limits_{\θ}\ sum_i \ log p_{\θ}(x_i) \ \{常数}\ \文本 &= \下括号{\mathop{\rm arg\，max}\limits_{\theta} \sum_i \log p_{\theta}(x_i)}_{\text{等价于极大似然估计(MLE)}} \\ \ {端对齐}$$

- Christian S. Perone

## 9个想法“A理智介绍最大似然估计（MLE）和最大后验（MAP）”

1. 托马斯·波拉 说:

优秀的解释！感谢在谈论一种简单的方式的一个重要课题。

1. 感谢您的反馈 ！

2. 罗杰·格拉纳达 说:

太棒了!我所见过的对MLE最好的解释之一，它与KL散度和MAP的联系。谢谢分享。

1. 谢谢罗杰，很高兴听到你喜欢它。Abraco !

3. 匿名 说:

伟大的文章。谢谢你！

但是我认为，在方程（16）和（17）的期望不以下分布p但以下的均匀分布。方程（19） - （21）都很好，所以我不知道方程（23）的要求。

无论如何，这是我推荐的一篇好文章。

4. 克里斯托弗·霍林 说:

很好的解释，我已经阅读最明显的一个。

在映射推导中，使用的一致先验没有定义在支持上(我假设是-/+∞)。在这种情况下，先验的选择似乎是有效的，因为我们可以把它作为一个常数从优化中去掉。如果相反，你想从先验预测分布中取样，或边缘化的theta，那么结果的分布是有效的(即积分到1)?

5. 匿名 说:

谢谢你的努力。
方程25的第二行应该是左边的对数概率。在右边，你少了平方项

6. 苏雷什 说:

感谢您的精彩发言。

7. 匿名 说:

你在第(7)之后的那一段完全没有意义，你说最大似然估计是，我没有更好的格式，最后你说人们不应该把它错当成，最大似然估计。在段落的中间，你说最大似然估计是现在的和以前不同的符号，这也没有意义，因为你已经定义了一个向量(已知(5)和(6))，因此不是一个函数。请改正这些错误。