Word Embedding | 永远的热河路

引言

前几天的一篇文章自然语言处理入门里提到了一个词嵌入工具GloVe，今天我们花点时间介绍下它的工作原理。不管是英文还是中文，网上关于GloVe的介绍并不多，所以本文的内容主要来自于Stanford NLP Group的Jeffrey Pennington, Richard Socher, Christopher D. Manning在2014年的Empirical Methods in Natural Language Processing (EMNLP)上发表的一篇论文：GloVe: Global Vectors for Word Representation。相对而言这篇论文还是很容易读懂的，下面我们进入正题。

什么是GloVe？

正如论文的标题而言，GloVe的全称叫Global Vectors for Word Representation，它是一个基于全局词频统计（count-based & overall statistics）的词表征（word representation）工具，它可以把一个单词表达成一个由实数组成的向量，这些向量捕捉到了单词之间一些语义特性[……]

继续阅读

2018年1月13号更新：
1.可以结合阅读本人的另一篇文章：自然语言处理入门来理解本文。
2.Xin Rong童鞋在去年的一场飞机失事中不幸去世，非常可惜。

以下为正文：

这两天比较受挫，因为看了几篇paper都没怎么懂。昨天看了一篇论文里面提到了word2vec，于是就想简单了解下什么是word2vec（感觉好像挺出名的）？再加上自己本身对NLP技术也比较感兴趣，想了解下NLP到底是如何处理文本从而理解文本的。于是就找了几篇论文看起来，word2vec最初是由当时还在Google工作的Tomas Mikolov率先提出的：Efficient Estimation of Word Representations in Vector Space，然而我并没有看懂这篇论文，写的实在是太high-level，看不到细节。感觉侧重点在和之前的几个模型比较性能：模型的计算复杂度和最终的效果，并没有详细解释这两个模型是如何工作的。刚开始以为是自己background太差了，理解不了。后来在网上搜了搜发现有人专门写了一篇论文来解释这篇论文：word2vec Parameter Learni[……]

继续阅读

永远的热河路

A man can be destroyed but Not Defeated.

标签归档：Word Embedding

GloVe详解

引言

什么是GloVe？

Word2vec初探