标签归档:NLP

自然语言处理入门

本文主要介绍自然语言处理(Natural Language Processing:NLP)中的一些最基础的概念,可以帮助读者在整体上感知这一领域,算是一篇入门读物。

词库

Vocabulary,表示所有词的集合。一般而言,经过one-hot encoding之后的向量的长度即为词库的大小。

语料库

Corpus,由词库里所有的词组成的句子,短语等语料信息,可以简单理解为一个/多个documents。

词向量

Word Vector,就是把一个Word表示成一个向量(vector),最常见的有one-hot encoding。

分布的假设

我们知道一个单词最原始的表达方式(Word Representation)是one-hot encoding,但是这种方式是有缺陷的,它仅仅将单词符号化,不包含任何语义信息。那如何才能表达出一个词的语义呢?Harris 在 1954 年提出的分布假说( Distributional Hypothesis)为这一设想提供了理论基础:上下文相似的词,其语义也相似。 这个很好理解,比如有如下两句话: