目录

  • 1 Chapter01. Introduction
    • 1.1 课程PPT
    • 1.2 补充材料(数学基础)
    • 1.3 本节作业
  • 2 Chapter02. Bayesian Decision Theory
    • 2.1 课程PPT
    • 2.2 视频素材
    • 2.3 章节测试
  • 3 Chapter03. Maximum Likelihood and Bayesian Estimation
    • 3.1 课程PPT
    • 3.2 视频素材
    • 3.3 补充材料(EM)
  • 4 Chapter04. Nonparametric Techniques
    • 4.1 课程PPT
    • 4.2 补充材料(距离)
  • 5 Chapter05. Linear Discriminant Functions
    • 5.1 课程PPT
    • 5.2 视频素材
    • 5.3 补充材料(梯度)
    • 5.4 数学证明
  • 6 Chapter06. Neural Networks
    • 6.1 课程PPT
    • 6.2 视频素材
    • 6.3 补充材料(BP)
  • 7 Chapter07. Dimension Reduction
    • 7.1 课程PPT
    • 7.2 补充材料(奇异值)
  • 8 Chapter08. Non-metric Methods
    • 8.1 课程PPT
  • 9 Chapter09. Unsupervised Learning and Clustering
    • 9.1 课程PPT
    • 9.2 实验
  • 10 Chapter10. Algorithm-independent Machine Learning
    • 10.1 课程PPT
    • 10.2 补充材料(偏差方差两难)
    • 10.3 实验
  • 11 课程实验
    • 11.1 实验环境设置
    • 11.2 python数据常用导入方法
    • 11.3 数据探索
    • 11.4 数据预处理
    • 11.5 朴素贝叶斯分类
    • 11.6 KNN分类
    • 11.7 线性回归
    • 11.8 逻辑回归
    • 11.9 SVM实现多分类
    • 11.10 决策树分类
    • 11.11 PCA实现
    • 11.12 K-means聚类实现
python数据常用导入方法

机器学习实验过程中,需要对获取到的数据进行分析,往往第一步就是导入数据。导入数据有很多方式,不同的数据文件需要用到不同的导入方式,相同的文件也会有几种不同的导入方式。下面总结几种常用的文件导入方法。

方法一:导入numpy包,读取本地文件

1.1 numpy读取本地文本文件

1.2 numpy导入本地.npy or .npz文件

方法二:导入pandas包,读取本地文件

2.1 pandas读取csv格式数据

2.2 pandas读取excel格式数据

2.3 pandas读取json格式数据

2.4 pandas读取html格式数据

2.5 pandas读取剪贴板数据

方法三:利用sklearn包datasets模块导入uci数据库

sklearn(Scikit-learn)是一个广泛使用的Python机器学习库,它提供了许多用于实验和学习的数据集。UCI数据库(University of California, Irvine Machine Learning Repository)是一个在线的机器学习数据库,包含了大量的数据集供研究人员使用。尽管sklearn.datasets不直接连接UCI数据库,但它确实包含了一些从UCI数据库以及其他来源精选出来的数据集。这些数据集通常经过预处理,使得它们可以轻松地与Scikit-learn的机器学习算法一起使用。

  • from sklearn.datasets import load_iris  

  • from sklearn.datasets import load_digits  

  • from sklearn.datasets import fetch_california_housing

方法四:在线下载uci数据集到内存

在线下载数据集并将其加载到内存中,通常这涉及到使用HTTP请求库(如requests)来下载数据,然后使用适当的解析库(如pandas或numpy)来处理数据。

# UCI数据集的URL(这里以鸢尾花数据集为例)  

url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"  

# 发送HTTP GET请求来下载数据集  

response = requests.get(url)