作者归档:fanyy

极大似然估计(Maximum Likelihood Estimation)

在统计学中,最大似然估计,也称为最大概似估计,是用来估计一个概率模型的参数的一种方法。也就是说,在模型已知的情况下,我们通过采样样本数据,反推出最有可能导致该数据服从该模型分布的参数值,简单来说就是:模型已定,参数未知,通过采样求解模型参数。

问题描述

给定一组数据\(X=X_1,X_2,…,X_n\) ,他们的概率分布为\(D\)(参数为\(\theta\)),以及其概率密度函数\(f_D\),求解模型\(D\)的参数\(\theta\)。

求解

  • 采样
    我们从\(X\)中采样出一组数据\(x=x_1,x_2,…,x_n\),如果\(n\)足够大的话,这组数据肯定是服从分布\(D\)的。我们假设这组数据的采样是互相独立的,那么他们同时被采集到的概率(联合概率密度:joint density function)就是:

    $$
    f(x_1,x_2,…,x_n|\theta) = f(x_1|\theta) \t[……]

    继续阅读

Word2vec初探

2018年1月13号更新:
1.可以结合阅读本人的另一篇文章:自然语言处理入门来理解本文。
2.Xin Rong童鞋在去年的一场飞机失事中不幸去世,非常可惜。

以下为正文:

这两天比较受挫,因为看了几篇paper都没怎么懂。昨天看了一篇论文里面提到了word2vec,于是就想简单了解下什么是word2vec(感觉好像挺出名的)?再加上自己本身对NLP技术也比较感兴趣,想了解下NLP到底是如何处理文本从而理解文本的。于是就找了几篇论文看起来,word2vec最初是由当时还在Google工作的Tomas Mikolov率先提出的:Efficient Estimation of Word Representations in Vector Space,然而我并没有看懂这篇论文,写的实在是太high-level,看不到细节。感觉侧重点在和之前的几个模型比较性能:模型的计算复杂度和最终的效果,并没有详细解释这两个模型是如何工作的。刚开始以为是自己background太差了,理解不了。后来在网上搜了搜发现有人专门写了一篇论文来解释这篇论文:word2vec Parameter Learni[……]

继续阅读

Factorization Machines

Factorization Machines
要真正理解这个东西,我们得先从线性回归和多项式回归说起。

  • 线性回归
    一个基本的线性回归模型可以表示为:
    $$
    \hat{y(x)} = w_{0} + \sum_{i=1}^{n}w_{i}x_{i}
    $$
  • 多项式回归
    那么多项式回归就是在此基础上增加交叉项(也就是多项式):
    $$
    \hat{y(x)} = w_{0} + \sum_{i=1}^{n}w_{i}x_{i} + \sum_{i=1}^{n}\sum_{j=i+1}^{n}w_{ij}x_{i}x_{j}
    $$
    后面增加的就是多项式交叉项,Factorization Machines的主要目的就是优化多项式交叉项。那么这个多项式交叉项有什么问题呢?为什么需要被优化呢?
  • 第一个明显的问题就是参数太多了,\(n\)个特征,两两交叉,参数个数就是\(n(n-1)/2\).

  • 各个参数\(w_{ij}\)之间是互相独立,并没有什么联系。
  • 在高度稀疏的训练样本中无法准确地学习得到这些参数。为什么?因为最终[……]

    继续阅读

理解PCA

引言
之前写过一篇关于PCA的文章,写完之后就以为自己已经完全理解这个东西了。直到最近data mining课上又讲到这个内容,和同学交流时才发现有些细节根本没有理解到位。上一篇文章主要介绍如何一步一步计算出一个PCA算法,而今天则侧重于从数学的角度讲讲为什么。

基本概念
再深入介绍之前,先理解几个基本的数学概念:
方差(Variance):
一个变量的方差可以看做是每个元素与变量均值的差的平方和的均值,即:$${\displaystyle \Sigma =\mathrm {cov} (X_{i},X_{i}) = \mathrm {E} {\begin{bmatrix}(X_{i}-\mu _{i})^{2}\end{bmatrix}} = \mathrm {E} {\begin{bmatrix}(X_{i}-\mu _{i})(X_{i}-\mu _{i})\end{bmatrix}}}
$$
其中,\(E\)表示的是均值函数,\(\mu_{j}\)表示的是样本的均值。方差用来度量单个变量样本数据的离散(偏离均值)的程度。

协方差(Covariance):
变量\(X_{i}\[……]

继续阅读

港科の初体验

我想我应该是一个适应能力极强的人,不知不觉到香港已经十几天了,从工作状态切换到学生身份,再从上海到香港,接受这些转变并没有我想象的那么难,没有什么特别值得说道的不适。可能是香港和上海真的太像了吧,但其实我并没有那么喜欢香港,不仅仅是香港的物价比上海贵了30%-50%,还有那温热潮湿令人每天要洗好几次澡的天气。这里我真的要吐槽下每天穿梭于学校和山下的小巴,简直破败不堪,跟老家小县城的小巴差不多。有些公交站牌连站点信息都没有,上下站都要招手,不然不停。而且司机上下山开的极快,过弯都不踩刹车,让我有种时刻都有可能要翻下山的不安全感。哈哈。此外,还有最重要一点是,香港底层群众在服务时会不自觉地透露出一股怨气,反正我在公共场合咨询一些香港人问题或者在一些小餐厅吃饭,从来没看被笑脸相迎过(哎,可能我长得太严肃了?)。所以啊,底层人民的服务态度并不好啊,给人一种冷冰冰的感觉。当然了,这一切只是我下了两次山之后的体验,有点吹毛求疵了,香港整体而言还是很不错的,在这里你确实能感受到中西方文化交融的影子,这在全世界都非常独特。
HK_STREET
吐槽完香港,再来说说学校吧。就这几天的感受而言,港科的一切都是那么的让我欢喜[……]

继续阅读