NLP字的陈述和语言维特根斯坦哲学

我做了一个介绍说关于过去的词嵌入,本文是对词向量背后哲学思想部分的扩展。本文的目的是介绍路德维希维特根斯坦关于语言学的主要观点,这些观点与设计上的分布式技术(稍后我将讨论这意味着什么)密切相关,比如word2vec[Mikolov等,2013],手套[Pennington等人,2014年、思维跳跃载体[基罗斯等人,2015年]等等。

维特根斯坦最有趣的一个方面也许是他一生中发展了两种截然不同的哲学,每一种都有很大的影响。亚洲金博宝对于一个花了这么多时间研究这些观点,甚至在它们产生重大影响之后还退缩的人来说,这是非常罕见的,尤其是在维也纳圈子里。这是知识分子诚实的真正教训,在我看来,也是一项重要的遗产。

维特根斯坦是叔本华哲学的热心读者,叔本华也以同样的方式从康德那里继承了他的哲学,特别是关于可以实验的东西的划分(现象) 或不 (本体),对比东西他们似乎对我们从东西就像他们自己一样维特根斯坦的结论是叔本华哲学是基本正确的。他相信本体境界,我们没有概念的理解,因此我们将永远不能说任何东西(没有成为废话),而相比之下,现象我们经验的领域,在那里我们确实可以谈论和尝试理解。通过给现象世界增加安全的基础,比如逻辑,他能够推理出世界是如何被语言描述的,从而映射出语言或概念思维表达的方式和内容的极限。

维特根斯坦的第一个主要的语言理论逻辑哲学论,被称为“语言图画论”(又名图片意义的理论)。这个理论是基于一个比喻与绘画,维特根斯坦意识到,一画就是东西比一个自然景观非常不同的,然而,一个熟练的画家仍然可以通过将相应的自然景观现实补丁或中风代表真正的景观。亚洲金博宝维特根斯坦给了名字“逻辑形式“这组绘画和自然景观之间的关系。这种逻辑形式,即两种表现共同的内部关系,是画家能够表现现实的原因,因为在两种表现中逻辑形式是相同的(在这里,我称两者为“表象”,是与叔本华和康德的术语相一致的,因为现实也是我们的表象,是为了区分它和事物本身)。

这个理论很重要,尤其是在我们的语境中,因为维特根斯坦意识到同样的事情也会发生在语言上。我们能够把单词组合成句子来搭配相同的单词逻辑形式我们想描述的。逻辑形式是使我们能够这个世界谈谈。然而,后期维特根斯坦意识到,他刚刚捡到一个任务,输出任务该语言可以执行的大量的产生和它周围的意义整体论。

事实是,语言可以做很多其他的任务,除了代表(生动描述)的现实。有了语言,维特根斯坦注意到,我们可以发号施令,我们不能说这是东西的图片。不久,他意识到这些反例,维特根斯坦放弃了语言的图像理论采用了一个更有力的比喻工具。在这里,我们正在接近现代语言意义的观点,以及许多现代机器学习技术背后的主要基本思想,这些技术在单词/句子表示方面非常有效。一旦你意识到语言是一种工具,如果你想要理解它的意思,你只需要理解你能用它做的所有可能的事情。举个例子,如果你孤立地看一个词或一个概念,它的意思是所有用法的总和,这个意思是可变的,可以有很多不同的面。这一重要思想可以总结如下:

一个词的意思是它的采用在语言。

(…)

人们无法猜测有一个词功能。一个人必须看它的使用,以及从中学习

- 维特根斯坦,哲学研究

事实上它使完整意义上的,因为一旦你用尽一个字的所有用途,没有什么留下它。现实也是目前为止更流畅的比通常认为,这是因为:

我们的语言可以被看作是一座古老的城市:迷宫般的街道和广场,新旧房屋,以及从不同时期增加的房屋(……)

- 维特根斯坦,哲学研究

约翰·弗斯是一个语言学家也被称为是谁也用维特根斯坦的哲学研究作为求助于强调的意思,在下面我引用的上下文的重要性的意思这依赖于上下文的性质的普及:

把一个文本作为一个组成部分放在语境中有助于说明意义,因为语境是为了承认使用而设置的。正如维特根斯坦所说词语的意义在于它们的使用”。(菲尔。调查,80年,109年)。玩语言游戏的日常实践认识到习俗和规则。由此可见,文本等建立使用可能包含的句子,如“别这样一个屁股!”“你愚蠢的驴!”,“他是什么驴!”在这些示例中,这个词的屁股在公司熟悉和习惯,一般配置和你愚蠢的,他是一个愚蠢的,不要这样的-。有了它的陪伴,你就会知道一个字!ass的一个意思是它与上面引用的其他单词的习惯性搭配。尽管维特根斯坦在处理另一个问题,他也承认平原面值,文字的地貌。他们看着我们!“这句话是由词,这是足够的”。

-约翰·费斯

通过它使公司学习单词的含义的这种想法是什么word2vec基于(和其他点方法基于同现)所做的数据和学习一种无监督的方式和监督任务,设计了预测上下文(反之亦然,如果你使用skip-gram或cbow),这也是一个灵感的来源跳跃式思维的载体。如今,这一想法也被称为“分布的假设“,其也被上比语言学等领域。

现在,它是相当惊人的,如果我们看一下在工作Neelakantan等人,2015年被称为“有效的非参数估计的多重嵌入每字在向量空间“, where they mention about an important deficiency in word2vec in which each word type has only one vector representation, you’ll see that this has deep philosophical motivations if we relate it to the Wittgenstein and Firth ideas, because, as Wittgenstein noticed, the meaning of a word is unlikely to wear a single face and word2vec seems to be converging to an approximation of the average meaning of a word instead of capturing the polysemy inherent in language.

单词的多面性的一个具体例子可以在单词“evidence”的例子中看到,它的意思可能与历史学家、律师和物理学家截然不同。道听途说在法庭上不能作为证据,因为它是历史学家拥有的许多倍的唯一证据,而道听途说甚至在物理学中都没有出现。最近的作品包括ELMo [彼得斯,马修E.等人2018],使用不同级别的特性从一个LSTM训练与语言模型的目标也是一个非常有趣的方向的结果在这个词中加入一个上下文相关的语义表示和打破传统的见word2vec浅表示。亚洲金博宝

我们正处在一个激动人心的时刻,其中实在是令人惊讶地看到许多深层次的哲学基础,实际上是如何隐藏在机器学习技术。这也是非常有趣的是,我亚洲金博宝们正在学习的机器学习试验了很多语言的教训,我们可以作为获得新发现的重要手段正在形成一个惊人的良性循环见。我认为,我们从来没有自我意识和关心语言在过去几年。

我真的希望你喜欢阅读这个!

- 基督教S. Perone

引用这篇文章作为:克里斯蒂安S.佩隆,“NLP的词表示和维特根斯坦的语言哲学,”在亚洲金博宝隐姓埋名地23/05/2018,//www.cpetem.com/2018/05/nlp-word-representations-and-the-wittgenstein-philosophy-of-language/

参考文献

玛吉,布莱恩。哲学史。1998年。

米科洛夫、托马斯等。向量空间中单词表示的有效估计。2013年。https://arxiv.org/abs/1301.3781

彭宁顿,杰弗里等人。手套:全球矢量字表示。2014年https://nlp.stanford.edu/projects/glove/

基罗斯,瑞安等。跳思想的载体。2015年https://arxiv.org/abs/1506.06726

Neelakantan, Arvind等人。向量空间中每个词的多重嵌入的有效非参数估计。2015。https://arxiv.org/abs/1504.06654

莱昂,杰奎琳。通过搭配含义。语料库语言学的Firthian亲子关系。2007年。

对“NLP词汇表征与维特根斯坦语言哲学”的四点思考

  1. 这是一篇精彩的文章。。我有一个合法的聊天机器人,它使用维特根斯坦的方法,以使其能够说多种语言。你见过使用word2vec和Wittgenstein的例子吗?

  2. 维特根斯坦,好吧,他必须与他的项目的主观性知识斗争,他被迫用他所描述的东西来描述他想描述的东西。你得爱他。所以,对他写的几乎每一段的不同解释可能都是有效的。亚洲金博宝

    我没有从维特根斯坦那里得到语言作为工具。我把语言当作游戏,当作环境。我得到了由区域组成的语法(尽管他没有试图描绘出区域)。语言是许多哲学难题的罪魁祸首。作为语言子集的数学和逻辑。语言是思想的同义词(从他对“一蹴而就”的思想的观察,以及他对内部语言或“心理”语言的批判中得出)。但是语言作为一种工具,某种工具?不。语言与人的距离,是指它是一个客体,而不是说语言是我们主观经验的表达。它是独一无二的,因为我们可以观察到它,但我们不能将自己与它分离。

    我认为一个更好的表达来描述一个字不是一个工具,但在游戏中的一块。该件具有提供给它的某些移动,这取决于它所处的板的区域。板,以及其可以是如个人定义的思想,但可以共享。

    嘿,谢谢你的文章。一、 同样,依靠维特根斯坦开发了一个NLP系统,但起点不同于word2vec,我觉得它太依赖表面语法了。但不管起点是什么,我发现开发语言应用程序是一个特别棘手的问题。

  3. 嗨基督教

    我喜欢这个帖子。我也对维特根斯坦与自然语言处理的关联性感到惊讶,π对我如何看待数据科学、主观性/客观性和人工智能产生了巨大的影响。计算语言学的成功与失败如何映射到Witt的思想上,这是一件令人着迷的事情。

    作为杜克大学的一名学生,我目前正在写关于维特根斯坦和计算语言学探索纸。如果你是开放的话,这将是令人难以置信的澄清,如果我能到你更多关于这些主题发言。如果你有兴趣,请与我联系的电子邮件连接!

    最好,

    桑德拉

  4. 机器生成的语言不是“存在”。看看马丁·海迪格尔的作品。语言是人类的可能,是人类为了人类而产生的。编程算法不提供“存在”,它只是根据一些人类协议对现有单词进行重新排列,并没有生成真正的新单词,尽管它可能看起来像新单词。

发表评论

您的电子邮件地址将不会被公布。

本网站使用的Akismet,以减少垃圾邮件。了解如何处理评论数据