课程门户-章节详情

机器学习与模式识别

花强

目录

1 Chapter01. Introduction
- 1.1 课程PPT
- 1.2 补充材料（数学基础）
- 1.3 本节作业
2 Chapter02. Bayesian Decision Theory
- 2.1 课程PPT
- 2.2 视频素材
- 2.3 章节测试
3 Chapter03. Maximum Likelihood and Bayesian Estimation
- 3.1 课程PPT
- 3.2 视频素材
- 3.3 补充材料（EM）
4 Chapter04. Nonparametric Techniques
- 4.1 课程PPT
- 4.2 补充材料（距离）
5 Chapter05. Linear Discriminant Functions
- 5.1 课程PPT
- 5.2 视频素材
- 5.3 补充材料（梯度）
- 5.4 数学证明
6 Chapter06. Neural Networks
- 6.1 课程PPT
- 6.2 视频素材
- 6.3 补充材料（BP）
7 Chapter07. Dimension Reduction
- 7.1 课程PPT
- 7.2 补充材料（奇异值）
8 Chapter08. Non-metric Methods
- 8.1 课程PPT
9 Chapter09. Unsupervised Learning and Clustering
- 9.1 课程PPT
- 9.2 实验
10 Chapter10. Algorithm-independent Machine Learning
- 10.1 课程PPT
- 10.2 补充材料（偏差方差两难）
- 10.3 实验
11 课程实验
- 11.1 实验环境设置
- 11.2 python数据常用导入方法
- 11.3 数据探索
- 11.4 数据预处理
- 11.5 朴素贝叶斯分类
- 11.6 KNN分类
- 11.7 线性回归
- 11.8 逻辑回归
- 11.9 SVM实现多分类
- 11.10 决策树分类
- 11.11 PCA实现
- 11.12 K-means聚类实现

课程PPT

上一节

下一节

主要内容

1.理解总体分布的非参数估计

2.实现KNN算法（K-Nearest Neighbour Algorithm）

3.讨论Density Estimation based on Parzen Window含义和过程

密度估计：给定n个数据样本x1,x2,....,xn,我们可以估计概率密度函数p(x)，对于新的样本x就可以计算出相应的p(x)，这个过程就是密度估计。

密度估计的基础是：一个向量x落入到区域R的概率为

假设R非常小，所以p(x)的变化也很小，上面的公式就改写为：

其中V是R的“体积”。另一方面，假设x1,...,xn是根据密度函数p(x)独立取的n个样本点，其中有k个样本点落入到区域R中，关于R的概率就为：

这样就可以得到一个p(x)的估计函数：

Parzen window密度估计

假设R是以x为中心的超立方体，h为这个超立方体的边长，在2D的方形中有V=h*h，3D的立方体中有V=h^3。

给定上面的公式，表示的是xi是否落在方形中。

Parzen概率密度估计公式的表示如下：

其中被称作窗口函数(window function)。

同时可以对窗口函数做一定的泛化，就有其他的Parzen window密度估计方法。

例如在1D的情况下使用Gaussian函数：

这种方法就相当于将n个点为中心的高斯函数计算平均。其中标准差σ需要预先设定。

例子：

给定五个点：x1=2, x2=2.5, x3=3, x4=1, x5=6, 计算x=3位置的Parzen概率密度函数，采用σ=1的高斯函数作为window function。

计算过程如下:

采用图形的方式进行显示，并假设上面的5个点对整个密度函数做出相等的贡献：

采用Parzen Window对这个五个点估计得到的概率密度函数为：

-----------------------------------------------------------------------------------------------

中文PPT

英文PPT