本文覆盖Coursera Machine Learning Week 9的内容。
一、问题描述
假设我们现在要构建一个模型来判断某一个飞机发动机是否有问题,我们选取的特征如下:
原始数据集:\(\left \{ x^{(1)},x^{(2)}, … ,x^{(m)} \right \}\)在坐标轴上的分布如下图所示:

很明显上图数据点的分布是有规律可寻的:越往中心越密集,越往边缘越稀疏。也就是说大部分数据点都散落在中心位置,而小部分散落在边缘位置。那么我们就可以说如果一个测试点\(x_{test}\)越靠近中心点,那么它是正常引擎的可能性就越大;如果他远离中心点,则它很可能就是异常的引擎。这就是异常检测,他在很多领域都有应用,比如它可以监测网站的异常用户、监测机房电脑运转是否正常等。
二、算法
看到上图的分布我们很容易想到一个模型:高斯分布(Gaussian distribution),也就是正态分布(Normal distribu[……]


