听培训期间的神经网络梯度规范

训练神经网络往往是通过测量许多不同的指标,如准确性,损失,渐变等做了这是大多数做了汇总这些指标和TensorBoard绘制可视化的时间。

然而,我们还可以利用其他感官来监测神经网络的训练,例如声音. 声音是目前在神经网络训练中探索甚少的观点之一。人类的听觉可以很好地区分节奏和音高等特征上的非常小的扰动亚洲金博宝,即使这些扰动在时间上很短或很微妙。

在这个实验中,我做了一个非常简单的例子来展示一个合成的声音,亚洲金博宝这个声音是使用每一层的梯度范数制作的,对于卷积神经网络在MNIST上的训练步骤,我使用了不同的设置,比如不同的学习率、优化器、动量等等。

你需要安装PyAudio公司PyTorch运行代码(在这篇文章的结尾).

使用LR 0.01的SGD训练声音

这个段表示在第一个200步所述第一时期与来自4层梯度的训练会话,并使用10的更高的间距的批量大小,较高的一个层的规范,有一个短暂的沉默,以指示不同批次。注意梯度时间内增加。

使用rlr 0.1用SGD训练声音

同上,但学习率较高。

使用LR 1.0的SGD训练声音

和上面一样,但是高学习率使得网络分散,注意在规范爆炸然后发散时的高音。

使用LR 1.0和BS 256的SGD训练声音

设置相同,但学习率高达1.0,批量大小为256。注意梯度是如何爆炸的,然后有南斯导致最后的声音。

使用LR 0.01亚当培训声

这是在和SGD相同的环境下使用亚当。

源代码

对于那些有兴趣谁,这里是我用来做声音剪辑的完整的源代码:

进口pyaudio进口numpy的作为NP进口波进口炬进口torch.nn如NN进口torch.nn.functional为F进口torch.optim从torchvision进口数据集,变换类净(nn.Module)的Optim:DEF __init __(个体):超级(净,自我).__ INIT __()self.conv1 = nn.Conv2d(1,20,5,1)= self.conv2 nn.Conv2d(20,50,5,1)= self.fc1 nn.Linear(4*4*50, 500) self.fc2 = nn.Linear(500, 10) self.ordered_layers = [self.conv1, self.conv2, self.fc1, self.fc2] def forward(self, x): x = F.relu(self.conv1(x)) x = F.max_pool2d(x, 2, 2) x = F.relu(self.conv2(x)) x = F.max_pool2d(x, 2, 2) x = x.view(-1, 4*4*50) x = F.relu(self.fc1(x)) x = self.fc2(x) return F.log_softmax(x, dim=1) def open_stream(fs): p = pyaudio.PyAudio() stream = p.open(format=pyaudio.paFloat32, channels=1, rate=fs, output=True) return p, stream def generate_tone(fs, freq, duration): npsin = np.sin(2 * np.pi * np.arange(fs*duration) * freq / fs) samples = npsin.astype(np.float32) return 0.1 * samples def train(model, device, train_loader, optimizer, epoch): model.train() fs = 44100 duration = 0.01 f = 200.0 p, stream = open_stream(fs) frames = [] for batch_idx, (data, target) in enumerate(train_loader): data, target = data.to(device), target.to(device) optimizer.zero_grad() output = model(data) loss = F.nll_loss(output, target) loss.backward() norms = [] for layer in model.ordered_layers: norm_grad = layer.weight.grad.norm() norms.append(norm_grad) tone = f + ((norm_grad.numpy()) * 100.0) tone = tone.astype(np.float32) samples = generate_tone(fs, tone, duration) frames.append(samples) silence = np.zeros(samples.shape[0] * 2, dtype=np.float32) frames.append(silence) optimizer.step() # Just 200 steps per epoach if batch_idx == 200: break wf = wave.open("sgd_lr_1_0_bs256.wav", 'wb') wf.setnchannels(1) wf.setsampwidth(p.get_sample_size(pyaudio.paFloat32)) wf.setframerate(fs) wf.writeframes(b''.join(frames)) wf.close() stream.stop_stream() stream.close() p.terminate() def run_main(): device = torch.device("cpu") train_loader = torch.utils.data.DataLoader( datasets.MNIST('../data', train=True, download=True, transform=transforms.Compose([ transforms.ToTensor(), transforms.Normalize((0.1307,), (0.3081,)) ])), batch_size=256, shuffle=True) model = Net().to(device) optimizer = optim.SGD(model.parameters(), lr=0.01, momentum=0.5) for epoch in range(1, 2): train(model, device, train_loader, optimizer, epoch) if __name__ == "__main__": run_main()
引用这篇文章为:Christian S.Perone,“在训练中倾听神经网络梯度规范”,in亚洲金博宝未发现的地域04/08/2019,//www.cpetem.com/2019/08/listening-to-the-neural-network-gradient-norms-during-training/

深度学习中的不确定性估计(PyData Lisbon/2019年7月)

只是分享一些我于2019年7月在里斯本的PyData演讲的幻灯片”深度学习中的不确定性估计“:

引用本文为:Christian S.Perone,“深度学习中的不确定性估计(PyData Lisbon/2019年7月),”亚洲金博宝未发现的地域18/07/2019,//www.cpetem.com/2019/07/untainty-estimation-in-deep-learning-pydata-lisbon-july-2019年7月/

关于GPT-2语言模型的Benford定律

我写了一些几个月前约在本福德从法律语言模型如何出现,今天我决定用同样的方法来评估一下GPT-2会用一些句子来表现,结果发现它似乎也捕捉到了这些幂律。你可以在下面的例子中找到一些图,这些图显示了特定句子中数字的概率,例如“人口规模为"$$P(\{1,2, \ldots, 9\} \vert \text{" with a population size "})

引用本文为:基督教S. Perone,“本福德法律上GPT-2语言模型”,在亚洲金博宝未发现的地域2019年6月14日,//www.cpetem.com/2019/06/benford-law-on-gpt-2-language-model/

在PyTorch随机现有功能

训练的MLP有两个隐藏层和一个正弦先验。

我在试验“中描述的方法”用于深度强化学习的随机先验函数他们设计了一种非常简单实用的方法来处理不确定性,使用bootstrap和随机先验,并决定共享PyTorch代码。亚洲金博宝

我非常喜欢bootstrap方法,在我看来,它们通常是最容易实现的方法,并且提供了非常好的后验逼近,与贝叶斯方法有着很深的联系,不需要处理变分推理。亚洲金博宝在这篇论文中,他们实际上证明了在线性情况下,该方法提供了贝叶斯后验。

该方法的主要思想是通过bootstrap提供一个非参数数据扰动和随机先验,这些先验只不过是随机初始化的网络。

$$Q{\theta_k}(x)=f{\theta_k}(x)+p_k(x)$$

最后一个模型(Q{theta k}(x)将是集合的k模型,它将与未经训练的前一个函数(p{uk(x))相匹配。

让我们看看代码。第一个类是一个简单的MLP,有2个隐藏层和Glorot初始化:

MLP级(nn.模块):def初始化(self):super()。\uu初始化(self)。l1=nn.线性(1,20)自身.l2=nn.线性(20,20)自身l3=nn.线性(20,1)nn.init.xavier_制服_(自身重量)nn.init.xavier_制服_(自身重量2)nn.init.xavier_制服_(self.l3.weight)前进(self,输入:x=自身。l1(输入)x=nn.功能.selu(x) x=自身。l2(x)x=nn.功能.selu(x) x=自身l3(x)返回x

再后来,我们定义一个类,将采取的模式,并产生最终的模型结果之前:

类ModelWithPrior(nn.模块):def\uu init\uu(自我,基本模式:nn.模块,以前的_模型:nn.模块,上一个刻度:float=1.0):super()。\u initself.base_模型=基本模型自我先验模型=先前的模型自我先验量表=前刻度向前(自,输入):有火炬。没有毕业():之前的输出=自我先验模型(输入)previor_out=先前_分离(型号)self.base_模型(输入)返回模型输出+(自我先验量表*之前)

基本上就是这样!如您所见,这是一个非常简单的方法,在第二部分中亚洲金博宝,我们只创建了一个定制forward()来避免计算/累积先前网络的梯度,以及它们将其与模型预测相加(缩放后)。

要训练它,你只需要对每个集成模型使用不同的bootstrap,就像下面的代码:

def train_model(x_train,y_train,base_model,previor_model):model=modelwithprevior(base_model,previor_model,1.0)loss_fn=最小损失(优化器=火炬.擎天柱.亚当(模型参数(1),lr=0.05)对于范围(100)内的历元:列车模型(preds=型号(x_列)损失=损失(preds,y_列)优化器.zero_grad() 向后损失() 优化器.step(二)退货模型

并使用一个样本替换(bootstrap),如:

bootstrap_sampler = RandomSampler(dataset, True, len(dataset))

在这种情况下,我使用了与原稿相同的小数据集:

在对其进行简单的MLP训练之后,不确定度的结果如下所示:

训练模型采用MLP先验,共50个模型。

如果我们看一下刚刚的前科,我们将看到未经训练的网络的变化:

我们还可以可视化单个模型预测,显示由于不同初始化和引导噪声而产生的变化:

以红色显示每个单独模型预测和真实数据的图。

现在,也挺有意思的是,我们可以改变之前,比方说,一个固定正弦:

类SinPrior(nn.Module):高清向前(个体经营,输入):返回torch.sin(3 *输入)

然后,当我们训练用正弦之前相同的MLP模型,但这个时候,我们可以看到它是如何影响最终的预测性和不确定性范围:

如果我们展示每一款车型中,我们可以看到每一款车型的前贡献效果:

显示用正弦先验训练的集合的每个单独模型的图。

我希望你喜欢,这些是相当惊人的结果,为一个简单的方法,至少通过线性“健全检查”。我将探索一些预先训练好的网络来代替先前的网络,以了解对预测的不同影响,这是一个非常有趣的方法来添加一些简单的prior。亚洲金博宝

引用本文为:Christian S.Perone,“Pythorch中的随机先验函数”,in亚洲金博宝未发现的地域24/03/2019,//www.cpetem.com/2019/03/random-prior-functions-in-pytorch/

PyData蒙特利尔幻灯片谈话:引擎盖下PyTorch

这些是我2月25日在蒙特利尔PyData的演讲的幻灯片。很高兴见到你们大家!非常感谢玛丽亚亚历山大为了邀请!

引用本文为:Christian S.Perone,“PyData Montreal slides for the talk:Pythorch under the hood”,in亚洲金博宝未发现的地域2019年2月26日,//www.cpetem.com/2019/02/pydata-montreal-slides-for-the-talk-pytorch-under-the-hood网站/

极大似然估计(MLE)与极大后验概率(MAP)的合理引入

它是令人沮丧的原理,如最大似然估计(MLE),最大后验(MAP)和贝叶斯推理一般。在我看来,造成这种困难的主要原因是,许多教程假设已经有了知识,使用隐式或不一致的表示法,或者甚至解决了完全不同的概念,从而重载了这些原则。

这些上述问题作出新人理解这些概念很混乱,而且我经常谁是不幸被很多教程误导亚洲金博宝人面对。出于这个原因,我决定写一个健全的介绍,这些概念和更多地讨论他们的关系和隐藏的交互,同时试图解释配方的每一步。亚洲金博宝我希望能帮助人们理解这些原则带来新的东西。

最大似然估计

最大似然估计是用于估计的模型给定观测或观察一个或多个参数的方法或原理。最大似然估计也可简称为MLE,并且它也被称为最大似然的方法。从这个名字,你可能已经明白,这一原则的作品通过最大化的可能性,因此,关键要了解的最大似然估计是先了解一下这样的可能性,为什么会有人想它最大化,以便估计模型参数。

让我们从连续情况下似然函数的定义开始:

$$\mathcal{L}(\theta | x)=p{\theta}(x)$$

左边的术语是指“给定数据的参数的可能性”(theta)。那是什么意思?这意味着在连续情况下,具有参数化的模型(p{theta}(x))和数据(x)的可能性是具有该特定参数化的模型的概率密度函数(pdf)。

尽管这是最常用的似然表示法,但您应该注意,在这种情况下,符号“(\mathcal{L}(\cdot |\cdot)\”与条件符号的含义不同,因此请小心处理此重载,因为它总是隐式声明的,而且常常是混淆的来源。另一种常用的似然表示法是\(\mathcal{L}(x;\theta)\),这在某种意义上更好,因为它清楚地表明它不是条件,但是,它使似然看起来像是数据的函数,而不是参数的函数。

模型(p{theta}(x))可以是任何分布,为了具体化,假设数据生成分布是一个单变量高斯分布,我们定义如下:

$$
开始\{对齐}
p(x)&\sim\mathcal{N}(\mu,sigma^2)\\
P(X; \亩,\西格马^ 2)&\ SIM \压裂{1} {\ SQRT {2 \ PI \西格马^ 2}} \ EXP {\比格[ - \压裂{1} {2} \比格(\压裂{x轴\亩} {\西格玛} \比格)^ 2 \比格]}
\ {端对齐}
$$

如果你用不同的参数来绘制概率密度函数,你会得到如下的图,其中红色分布是标准高斯分布(p(x)sim\mathcal{N}(0,1.0)\):

188bet app
正态分布概率密度函数(PDFs)的选择。平均值(an)和方差(an)都是可变的。图中给出了关键。来源:维基共享。

正如您在上面的概率密度函数(pdf)图中所看到的,在各种给定的实现情况下,(x)的可能性显示在y轴上。这里的另一个混乱来源是,人们通常把它当作概率,因为他们通常看到这些正态分布图,并且概率总是小于1,然而,概率密度函数并没有给出概率,而是给出密度。对pdf的限制是它必须集成到一个:

$$ int_{-\infty}^{+\infty} f(x)dx = 1$$

所以,对于很多不同的分布来说,很多点的密度大于1是完全正态的。以pdf为例β分布下面:

188bet开户注册平台
分布的概率密度函数。来源:维基共享。

正如你所看到的,pdf显示了密度在分布的许多参数中的一个以上,同时仍然集成到1中并遵循概率的第二个公理:单位度量。

因此,回到我们最初的最大似然估计原则,我们想要的是最大化我们观测数据的可能性\(\mathcal{L}(\theta | x)\)。在实践中,这意味着我们要找到模型的参数\(\theta\),使模型生成数据的可能性最大化,我们要找到哪个参数这个模型的参数是最合理的要生成这些观测数据,或者是什么参数使这个样本最有可能?

对于我们的单变量高斯模型,我们需要的是找到参数\(\mu)和\(\sigma^2),为了便于表示,我们将其折叠成一个参数向量:

$ $ {bmatrix}开始\θ= \ \μ\ \ \σ^ 2 \ {bmatrix} $ $

因为这些统计量完全定义了我们的单变量高斯模型。那么,让我们来构建最大似然估计的问题:

$$
开始\{对齐}
\帽子{\ THETA}&= \ mathrm {ARG} \ MAX_ \ THETA \ mathcal {L}(\ THETA | X)\\
& = \ mathrm {arg} \ max_ \θp_{\θ}(x)
\ {端对齐}
$$

这就是说,我们要获得最大似然估计\(\帽子{\ THETA} \)近似\(P _ {\ THETA}(X)\)的潜在“真”分配\(P _ {\ THETA ^ *}(X)\)通过最大化的参数的可能性\给出(\ THETA \)数据\(X \)。You shouldn’t confuse a maximum likelihood estimate \(\hat{\theta}(x)\) which is a realization of the maximum likelihood estimator for the data \(x\), with the maximum likelihood estimator \(\hat{\theta}\), so pay attention to disambiguate it in your head.

但是这个公式需要加入多个观测值,通过加入多个观测值,得到一个复杂的联合分布:

$$\hat{\theta}=\mathrm{arg}\max\theta p{\theta}(x_1,x_2,ldots,x_n)$$

这需要考虑到所有观测之间的相互作用。这里我们做了一个强有力的假设:我们声明观察是独立的. 独立随机变量意味着以下结论成立:

$$p{\theta}(x{1,x}2,ldots,x})=\prod{i=1}^{n}p{\theta}(x}i)$$

也就是说,由于(xÓ1,xÓ2,ldots,x劬n)不包含彼此的信息,我们可以把联合概率写成它们的边值的乘积。

这是由另一个假设是,这些随机变量同分布,这意味着它们来自相同的生成分布,这允许我们用相同的分布参数化建模。

考虑到这两个假设,也就是IID公司(独立且相同分布),我们可以将我们的最大似然估计问题表述为:

$$\hat{\theta}=\mathrm{arg}\max{theta\prod{i=1}^{n}p{\theta}(x}i)$$

注意,MLE并不要求您做出这些假设,但是,如果不这样做,将会出现许多问题,例如每个样本的分布不同,或者必须处理联合概率。

假设在很多情况下,我们乘的密度可以很小,在上面的积中,我们乘一乘另一,我们可以得到很小的值。这里是对数函数通向似然的地方。log函亚洲金博宝数是一个严格单调递增函数,它保留了极值它有一个很好的特性亚洲金博宝

$$ \ LOG AB = \记录一个+ \日志b $$

乘积的对数是对数的和,这对我们来说很方便,所以我们将对数应用于最大化所谓的亚洲金博宝数似然:

$$
开始\{对齐}
{\ \帽子θ}& = \ mathrm {arg} \ max_ \θ\ prod_ {i = 1} ^ {n} p_{\θ}(x_i) \ \
& = \ mathrm {arg} \ max_ \θ\ sum_ {i = 1} ^ {n} \ log p_{\θ}(x_i) \ \
\ {端对齐}
$$

正如你看到的,我们从一个乘积变成了一个求和,这更方便。使用对数的另一个原因是我们经常求导并求解参数,因此求和比乘法容易得多。

我们还可以方便地平均对数似然(因为我们只是其中一个常数乘法):

$$
开始\{对齐}
\帽子{\ THETA}&= \ mathrm {ARG} \ MAX_ \ THETA \ sum_ {I = 1} ^ {N} \的log P _ {\ THETA}(X_I)\\
& = \ mathrm {arg} \ max_ \θ\压裂{1}{n} \ sum_ {i = 1} ^ {n} \ log p_{\θ}(x_i) \ \
\ {端对齐}
$$

这也很方便,因为它将消除对观测数量的依赖。我们也知道,通过大数定律,以下为\(n\to\infty\):

$$
\frac{1}{n}\sum{i=1}^{n}\log\,p{\theta}(x_i)\approx\mathbb{E}ux\sim p{\theta^*}(x)}\left[\log\,p{\theta}(x)]
$$

正如你所看到的,我们正在接近与期望经验预期由我们的数据集定义。这是一个重要的观点,通常是含蓄的假设。

弱大数定律可以用切比雪夫界限来界定,如果你对浓度不等式感兴趣,我已经做了188asia.net这里我讨论了切比雪夫边界。

为了完成我们的公式,考虑到我们通常最小化目标,我们可以将最大似然估计与对数似然负的最小化公式相同:

$$
\帽子{\ THETA} = \ mathrm {ARG} \ min_ \ THETA - \ mathbb {E} _ {X \ SIM P 450 {\ THETA ^ *}(X)} \左[\ LOG \,P _ {\ THETA}(x)的\权利]
$$

这和否定把最大化问题转化为最小化问题是完全一样的。

最大似然估计的从信息论的相对熵的关系

众所周知,最大化可能性与最小化Kullback-Leibler散度,也称为KL散度。这很有趣,因为它连亚洲金博宝接了一个度量信息论用极大似然原理。

KL发散定义为:

$$
\开始{方程式}
D_ {KL} (p | | q = \ int p (x) \ log \压裂{p (x)}{问(x)} \ dx
\结束{方程式}
$$

有许多直觉理解KL散度,我个人很喜欢的角度似然比但是,您可以很容易地找到关于它的大量资料,并且它超出了本介绍的范围。

KL散度基本上是对数似然比在p(x)分布下的期望值。我们在下面所做的只是使用期望的一些恒等式和属性来重新表述它:

$$
开始\{对齐}
D_ {KL} [p_{\θ^ *}(x) \ \绿色\,p_ \θ(x)] & = \ mathbb {E} _ {x \ sim p_{\θ^ *}(x)} \离开[\ log \压裂{p_{\θ^ *}(x)} {p_ \θ(x)} \右]\ \
\标签{eq:logquotient}
&= \ mathbb {E} _ {X \ SIM P 450 {\ THETA ^ *}(X)} \左[\ LOG \,P _ {\ THETA ^ *}(X) - \日志\,P_ \ THETA(X) \对] \\
\标签{EQ:线性}
& = \ mathbb {E} _ {x \ sim p_{\θ^ *}(x)} \ underbrace左{\ [\ log \, p_{\θ^ *}(x) \]} _{{熵}\文本p_{\θ^ *}(x)} - \ underbrace {\ mathbb {E} _ {x \ sim p_{\θ^ *}(x)}左\ [\ log \, p_{\θ}(x) \]} _{\文本{负对数似}}
\ {端对齐}
$$

在上面的配方中,我们首先使用的事实的商的对数等于所述分子和分母的日志的差(方程\(\ REF {当量:logquotient} \))。之后,我们使用期望的线性化(方程\(\ REF {当量:线性} \)),其告诉我们,\(\ mathbb {E} \左[X + Y \右] = \ mathbb {E}\左[X \右] + \ mathbb {E} \左[Y \右] \)。最后,我们只剩下两个学期,在左边第一个是右边的这个是负的对数似然我们之前看到的。

如果我们想最小化θ的KL发散,我们可以忽略第一项,因为它在任何方面都不依赖θ,最后我们得到了与我们之前看到的完全相同的最大似然公式:

$$
\开始{eqnarray}
\需要【取消】
\ THETA ^ * =&\ mathrm {ARG} \ min_ \ THETA \取消{\ mathbb {E} _ {X \ SIM P 450 {\ THETA ^ *}(X)} \左[\ LOG \,P _ {\THETA ^ *}(X)\右]} - \ mathbb {E} _ {X \ SIM p 450 {\ THETA ^ *}(X)} \左[\ LOG \,p _ {\ THETA}(X)\右] \\
& = & \ mathrm {arg} \ min_ \θ- \ mathbb {E} _ {x \ sim p_{\θ^ *}(x)} \离开[\ log \, p_{\θ}(x) \]
结束\ {eqnarray}
$$

条件对数似然

机器亚洲金博宝学习中一个非常常见的场景是监督学习,我们有数据点(xun)和它们的标签(yun)来建立我们的数据集(D={(x 1,y1),(x 2,y2),\ldots,(xun,yun)}),我们感兴趣的是估计给定的条件概率(textbf{y}),或者更精确地说。

要将极大似然原理推广到条件情况,我们只需将其写成:

$$
\帽子{\θ}= \ mathrm {arg} \ min_ \θ- \ mathbb {E} _ {x \ sim p_{\θ^ *}(y | x)} \离开[\ log \, p_{\θ}(y | x) \]
$$

然后,它可以很容易地推广制定了线性回归:

$$
p_{\θ}(y | x) \ sim \ mathcal {N} (x ^ T \θ,\σ^ 2)\ \
P 450 {\ THETA}(Y | X)= -n \日志\西格玛 - \压裂{N} {2} \日志{2 \ PI} - \ sum_ {I = 1} ^ {N} {\压裂{\|X_I ^ T \ theta - 用Y_I \ |} {2 \西格玛^ 2}}
$$

在这种情况下,你可以看到,我们最终得到的平方误差之和,将具有相同的位置的最佳均方误差(MSE)。所以你可以看到最小化MSE等于最大化高斯模型的可能性。

关于最大可能性的评论

极大似然估计有很有趣的性质但它只给我们亚洲金博宝点估计,这意味着我们可以不原因这些估计的分布。相比之下,贝叶斯推理可以给我们在参数的完整分布,因此将允许我们关于后验分布的原因

我将写更多关于贝叶斯推断和抽样方法的内容,比如来自马尔可夫链蒙特卡洛(MCMC)族的方法,但我将把这个留给另一篇文章,现在我将继续展示最大似然估计和最大后验(MAP)估计的关系。

最大后验

尽管最大后验概率(也称为MAP)也为我们提供了一个点估计,但它是一个贝叶斯概念,包含了参数上的先验。我们还将看到,映射与正则MLE估计有很强的联系。

我们从贝叶斯法则知道,我们可以从可能性和之前的,由证据标准化的产品得到了后路:

$$
开始\{对齐}
p(\theta\vert x)&=\frac{p{\theta}(x)p(\theta)}{p(x)}\\
{情商:proport} \标签
&\ propto P 450 {\ THETA}(x)的P(\ THETA)
\ {端对齐}
$$

在方程(eq:proportt)中,由于我们担心优化问题,我们取消了标准化证据(p(x))并保持了比例后验,这是非常方便的,因为(p(x))的边缘化涉及积分,在许多情况下是难以处理的。亚洲金博宝

$$
开始\{对齐}
\θ{MAP}&=\mathop{\rm arg\,max}\limits{\theta}p{\theta}(x)p(\theta)\\
&=\mathop{\rm arg\,max}\limits{\theta}\prod{i=1}^{n}p{\theta}(x_i)p(\theta)\\
&=\mathop{\rm arg\,max}\limits{\theta}\sum{i=1}^{n}\underbrace{\log p{\theta}(x{i)}\text{log likelihood}\underbrace{p(\theta)}
\ {端对齐}
$$

在该制剂中的上方,我们只是遵守与最大似然估计前面描述的相同的步骤,假定独立和相同的分布设置,由对数应用到开关从一个产品到求和以后跟着。正如可以在最终配方中看到的,这是等价的最大似然估计乘以现有术语。

我们也可以通过使用统一先验\(p(\theta) \sim \textbf{U}(\cdot, \cdot)\)轻松地恢复精确的最大似然估计量。这意味着所有可能的\(\theta亚洲金博宝\)都是等权重的,也就是说它只是一个常数乘法

$$
开始\{对齐}
\ theta_ {MAP}&= \ mathop {\ RM ARG \,最大} \限制_ {\ THETA} \ sum_i \的Log P _ {\ THETA}(X_I)P(\ THETA)\\
& = \ mathop {\ rm arg \马克斯}\ limits_{\θ}\ sum_i \ log p_{\θ}(x_i) \ \{常数}\ \文本
&=\underbrace{\mathop{\rm arg\,max}\limits{\theta}\sum{i\log p{\theta}(x{i)}\text{相当于最大似然估计(MLE)}\\
\ {端对齐}
$$

你瞧,具有均匀的MAP之前相当于MLE。它也很容易表明,高斯先验可以恢复L2正规化MLE。这是很有趣的,因为它可以提供正规化方面的见解和新的视角,我们平时使用。

希望你喜欢这篇文章!下一个是关于后验抽样的贝叶斯推断,在这里我们将展示如何对后验分布进行推理,而不仅仅是在MAP和MLE中看到的点估计。

——克里斯蒂安·S·佩隆

引用这篇文章:Christian S. Perone,“最大似然估计(MLE)和最大后验概率(MAP)的理智介绍”亚洲金博宝未发现的地域02/01/2019,//www.cpetem.com/2019/01/mle/

188bet手机版客户端

上周我发布了第一个公开版本欧几里德布。EuclidesDB是一个与PyTorch紧密耦合的多模型机器学习特征数据库,它提供了一个后端用于包含和查询模型特征空间上的数据。

有关更多信息,请参见金宝博游戏网址GitHub存储库或者是文档

EuclidesDB的某些功能列举如下:

  • 用C++编写的性能;
  • 使用protobuf进行数据序列化;
  • 使用gRPC进行通信;
  • 用于数据库序列化的LevelDB集成;
  • 实现了多种索引方法(惹恼,Faiss等);
  • 通过libtorch紧密集成PyTorch;
  • 易于集成新的定制微调模型;
  • 轻松生成客户端语言绑定;
  • 免费和开放源代码与自由许可;

下面是总体架构图:

188bet开户平台

这篇文章发表了葡萄牙语. 这是巴西国家考试的贝叶斯分析。分析的主要重点是了解影响ENEM参与者绩效的潜在因素。

埃斯特教程apresenta UMAanálise杆菌DOS microdados做ENEM做南里奥格兰德州做肛日2017年Ø主要objetivoé关语OS fatores阙impactam呐性能DOS participantes做墙裙ENEM科莫fatores仁达熟悉ËTIPO德Escola的。耐思特教程圣保罗apresentados的DOI modelos:regressão线性Èregressão线性hierárquica。

188bet开户平台