ml Archives | 小创作

我对Embedding的理解

Post author:chris
Post published:2019年6月29日
Post category:ml 未分类
Post comments:0 Comments

Embedding是NLP中，用来表示一个词的常见的方式。不过，他的用途其实不仅仅可以用在NLP中，在简单的线性回归或逻辑回归中 ———— 进而在神经网络中，也可以使用到这个东西。我当初在学习Embeding这个概念的时候，花了比较长一段时间才算真正理解。我不知道到底是这个概念本身理解起来就比较难，还是容易遗忘的原因。Anyway，因为这一点，我决定写一篇文章，说说我对Embedding的理解。在回答什么叫Embedding之前，我们先提出一个问题：给定任意的两个东西，怎么样来衡量他们之间的相似性呢？举个例子，比如说，牛奶、咖啡和苹果。通常意义下，可能大部分人都会认为“牛奶”和“咖啡”更相似，其他两对组合“牛奶”和“苹果”以及“咖啡”和“苹果”没那么相似。如果要进一步问为什么，大家可能会说，“牛奶”和“咖啡”都是液体，都是可以喝的，都是常见饮料，都是装在杯子或瓶子里面的等等等等。也就是说，我们会想出某一些角度，或者说一些特征，来衡量他们的相似性。这些“角度”或者说“特征”，我们用稍微显得专业一点的词来说，叫做维度。如果我们把主要考虑的几个维度简单的列一下，可能会得出以下的一些：是否食物、是否液体、是否需要人为加工、颜色、味道等等。列出这些维度以后，我们可以给这三个考察对象的每一个维度都分别“打个分”，分配一个数值。如下：是否食物是否液体人为加工颜色味道牛奶 1 1 0.8 -1 1 咖啡 1 1 0.9 -16777216 2 苹果 1 0.2 0.1…