课程门户-章节详情

机器学习与模式识别

花强

1 Chapter01. Introduction
- 1.1 课程PPT
- 1.2 补充材料（数学基础）
- 1.3 本节作业
2 Chapter02. Bayesian Decision Theory
- 2.1 课程PPT
- 2.2 视频素材
- 2.3 章节测试
3 Chapter03. Maximum Likelihood and Bayesian Estimation
- 3.1 课程PPT
- 3.2 视频素材
- 3.3 补充材料（EM）
4 Chapter04. Nonparametric Techniques
- 4.1 课程PPT
- 4.2 补充材料（距离）
5 Chapter05. Linear Discriminant Functions
- 5.1 课程PPT
- 5.2 视频素材
- 5.3 补充材料（梯度）
- 5.4 数学证明
6 Chapter06. Neural Networks
- 6.1 课程PPT
- 6.2 视频素材
- 6.3 补充材料（BP）
7 Chapter07. Dimension Reduction
- 7.1 课程PPT
- 7.2 补充材料（奇异值）
8 Chapter08. Non-metric Methods
- 8.1 课程PPT
9 Chapter09. Unsupervised Learning and Clustering
- 9.1 课程PPT
- 9.2 实验
10 Chapter10. Algorithm-independent Machine Learning
- 10.1 课程PPT
- 10.2 补充材料（偏差方差两难）
- 10.3 实验
11 课程实验
- 11.1 实验环境设置
- 11.2 python数据常用导入方法
- 11.3 数据探索
- 11.4 数据预处理
- 11.5 朴素贝叶斯分类
- 11.6 KNN分类
- 11.7 线性回归
- 11.8 逻辑回归
- 11.9 SVM实现多分类
- 11.10 决策树分类
- 11.11 PCA实现
- 11.12 K-means聚类实现

python数据常用导入方法

机器学习实验过程中，需要对获取到的数据进行分析，往往第一步就是导入数据。导入数据有很多方式，不同的数据文件需要用到不同的导入方式，相同的文件也会有几种不同的导入方式。下面总结几种常用的文件导入方法。

方法一：导入numpy包，读取本地文件

1.1 numpy读取本地文本文件

1.2 numpy导入本地.npy or .npz文件

方法二：导入pandas包，读取本地文件

2.1 pandas读取csv格式数据

2.2 pandas读取excel格式数据

2.3 pandas读取json格式数据

2.4 pandas读取html格式数据

2.5 pandas读取剪贴板数据

方法三：利用sklearn包datasets模块导入uci数据库

sklearn（Scikit-learn）是一个广泛使用的Python机器学习库，它提供了许多用于实验和学习的数据集。UCI数据库（University of California, Irvine Machine Learning Repository）是一个在线的机器学习数据库，包含了大量的数据集供研究人员使用。尽管sklearn.datasets不直接连接UCI数据库，但它确实包含了一些从UCI数据库以及其他来源精选出来的数据集。这些数据集通常经过预处理，使得它们可以轻松地与Scikit-learn的机器学习算法一起使用。

from sklearn.datasets import load_iris
from sklearn.datasets import load_digits
from sklearn.datasets import fetch_california_housing

方法四：在线下载uci数据集到内存

在线下载数据集并将其加载到内存中，通常这涉及到使用HTTP请求库（如requests）来下载数据，然后使用适当的解析库（如pandas或numpy）来处理数据。

# UCI数据集的URL（这里以鸢尾花数据集为例）

url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"

# 发送HTTP GET请求来下载数据集

response = requests.get(url)

图片预览