标签归档：Machine Learning

Machine Learning-Photo OCR（图片文字识别）

今天来总结一下Coursera Machine Learning最后一周week 11的内容：图像文字识别（photo OCR），这个问题是机器学习在计算机视觉（computer vision）领域里的一个很常见的应用。本章我们会介绍如何使用机器学习算法解决这个问题，以及什么是人工数据合成（artificial data synthesis）。

The Photo OCR problem
Photo OCR全称是：photo optical character recognition，照片光学字符识别，意思就是从照片里识别字符信息，比如我们有如下图片：

那么OCR解决的问题就是把照片中红框内的文字识别出来。

Photo OCR pipeline
这是一个较为复杂的机器学习应用，我们可以把它分为几个小模块，然后组成一个流水线（pipeline）来解决问题。具体地，分为以下几个步骤：

文字区域检测（text detection），找到图片中属于文字的部分，并把它抠出来：
字符分割（character segmentation），把上一步得到的图片分割成包含单个[……]
继续阅读

大规模机器学习

1条回复

本文覆盖Coursera Machine Learning Week 10的内容。

大数据集的学习（Learning with large data set）
如果我们回顾过去10年机器学习的发展历史，你会发现现在的学习算法效果比之前要好很多，其中一个重要的原因是现在比以前拥有更多可以供训练的数据。所以有人会说拥有更多的数据比算法更重要：“It’s not who has the best algorithm that wins, it’s who has the most data.”。所以这篇文章会介绍一些在大数据规模下的机器学习技巧。
先回顾一下之前的梯度下降公式：
$$\theta_{j} := \theta_{j} – \alpha\frac{1}{m}\sum_{i=1}^{m}\left ( h_{\theta}\left ( x^{(i)}\right )- y ^{(i)}\right ) x_{j}^{(i)}$$
上面公式中$m$的值可能会很大，比如$m$等于一个亿，不要以为这个数据量很大，在实际应用中是很常见的。如果还是按照之前的方法进行梯[……]

继续阅读

Machine Learning-推荐系统（Recommender Systems）

发表评论

本文覆盖Coursera Machine Learning Week 9的内容。这篇文章看似公式很复杂，但实质上内容还是比较简单的，就是基于最基本的线性回归，其实很容易理解的。

一、问题描述

推荐系统是机器学习在工业界的一个非常重要的应用，虽然它在学术界并不怎么被重视。今天你看到的大部分网站里使用的推荐系统，比如Amazon，淘宝，豆瓣等，它们基本都采用了机器学习技术，今天我们花点时间总结下推荐系统的相关知识。
例子：预测电影评分
假设我们有一些数据，它包含了不同用户对不同电影的评分情况（0-5分），其中?表示该用户没有看过这部电影，这些数据用一个表格表示如下：

Movie
Alice(1)
Bob(2)
Carol(3)
Dave(4)

Love at last
5
5
0
0

Romance forever
5
?
?
0

Cute puppies of love
?
4
0
?

Nonstop car chases
0
0
5
4

Sward[……]

继续阅读

Machine Learning-异常检测(Anomaly Detection)

1条回复

本文覆盖Coursera Machine Learning Week 9的内容。
一、问题描述
假设我们现在要构建一个模型来判断某一个飞机发动机是否有问题，我们选取的特征如下：

$x_{1}$ = 发热

$x_{2}$ = 抖动

原始数据集：$\left \{ x^{(1)},x^{(2)}, … ,x^{(m)} \right \}$在坐标轴上的分布如下图所示：

很明显上图数据点的分布是有规律可寻的：越往中心越密集，越往边缘越稀疏。也就是说大部分数据点都散落在中心位置，而小部分散落在边缘位置。那么我们就可以说如果一个测试点$x_{test}$越靠近中心点，那么它是正常引擎的可能性就越大；如果他远离中心点，则它很可能就是异常的引擎。这就是异常检测，他在很多领域都有应用，比如它可以监测网站的异常用户、监测机房电脑运转是否正常等。

二、算法

高斯分布(Gaussian distribution)
看到上图的分布我们很容易想到一个模型：高斯分布(Gaussian distribution)，也就是正态分布(Normal distribu[……]

继续阅读

Machine Learning-聚类(Clustering)(二)-主成分分析(PCA)

发表评论

一、降维（Dimensionality Reduction）
我们知道在实际场景中，很多特征向量之间都是有强相关性的，比如有两个特征分别用英尺和平方米来丈量房屋的面积大小，那么这两组数据就是冗余的（为什么会出现这么明显的冗余？因为在实际场景中会有几百甚至是上千的特征，很难判断两个特征之间是否是冗余的。），我们完全可以使用一个一维的特征变量来表示房屋的面积大小，这就是降维。举个例子：

如上图所示，我们把原来的两个向量x1和x2降维到只是用一个向量z1来使用。更直观的，可以看一个三维降低到二维的例子：

我们可以发现三维空间里离散的点被映射到了一个二维空间平面之中。

那么为什么要降维呢？

压缩数据，节省存储空间

提高算法执行速度

用于数据可视化，使视图更简洁，更容易发现数据之间的规律

二、主成分分析（Principal Component Analysis）

1.PCA的数学表达
在介绍PCA的计算方法和原理之前，我们先了解下PCA主要做的事情是什么，并且用数学语言把它表达出来。看个例子：

这个例子是把二维的数据降低到一维，它所做的事[……]

继续阅读

永远的热河路

A man can be destroyed but Not Defeated.

标签归档：Machine Learning

Machine Learning-Photo OCR（图片文字识别）

大规模机器学习

Machine Learning-推荐系统（Recommender Systems）

一、问题描述

Machine Learning-异常检测(Anomaly Detection)

Machine Learning-聚类(Clustering)(二)-主成分分析(PCA)