NLP | 永远的热河路

本文主要介绍自然语言处理（Natural Language Processing：NLP）中的一些最基础的概念，可以帮助读者在整体上感知这一领域，算是一篇入门读物。

词库

Vocabulary，表示所有词的集合。一般而言，经过one-hot encoding之后的向量的长度即为词库的大小。

语料库

Corpus，由词库里所有的词组成的句子，短语等语料信息，可以简单理解为一个/多个documents。

词向量

Word Vector，就是把一个Word表示成一个向量（vector），最常见的有one-hot encoding。

分布的假设

我们知道一个单词最原始的表达方式（Word Representation）是one-hot encoding，但是这种方式是有缺陷的，它仅仅将单词符号化，不包含任何语义信息。那如何才能表达出一个词的语义呢？Harris 在 1954 年提出的分布假说（ Distributional Hypothesis）为这一设想提供了理论基础：上下文相似的词，其语义也相似。 这个很好理解，比如有如下两句话：

I like drinking orange jui[……]
继续阅读

永远的热河路

A man can be destroyed but Not Defeated.

标签归档：NLP

自然语言处理入门

词库

语料库

词向量

分布的假设