课程门户-章节详情

机器学习与模式识别

花强

1 Chapter01. Introduction
- 1.1 课程PPT
- 1.2 补充材料（数学基础）
- 1.3 本节作业
2 Chapter02. Bayesian Decision Theory
- 2.1 课程PPT
- 2.2 视频素材
- 2.3 章节测试
3 Chapter03. Maximum Likelihood and Bayesian Estimation
- 3.1 课程PPT
- 3.2 视频素材
- 3.3 补充材料（EM）
4 Chapter04. Nonparametric Techniques
- 4.1 课程PPT
- 4.2 补充材料（距离）
5 Chapter05. Linear Discriminant Functions
- 5.1 课程PPT
- 5.2 视频素材
- 5.3 补充材料（梯度）
- 5.4 数学证明
6 Chapter06. Neural Networks
- 6.1 课程PPT
- 6.2 视频素材
- 6.3 补充材料（BP）
7 Chapter07. Dimension Reduction
- 7.1 课程PPT
- 7.2 补充材料（奇异值）
8 Chapter08. Non-metric Methods
- 8.1 课程PPT
9 Chapter09. Unsupervised Learning and Clustering
- 9.1 课程PPT
- 9.2 实验
10 Chapter10. Algorithm-independent Machine Learning
- 10.1 课程PPT
- 10.2 补充材料（偏差方差两难）
- 10.3 实验
11 课程实验
- 11.1 实验环境设置
- 11.2 python数据常用导入方法
- 11.3 数据探索
- 11.4 数据预处理
- 11.5 朴素贝叶斯分类
- 11.6 KNN分类
- 11.7 线性回归
- 11.8 逻辑回归
- 11.9 SVM实现多分类
- 11.10 决策树分类
- 11.11 PCA实现
- 11.12 K-means聚类实现

线性回归

实验线性回归实现

实验目标

本实验的目标是通过线性回归模型来预测加利福尼亚州各区域的房价，并对模型的性能进行评估。通过该实验，我们将掌握数据的加载与预处理、模型训练与测试、模型评估以及结果可视化的完整流程。

实验环境

o Python编程语言

o Scikit-learn库

o Matplotlib（用于数据可视化）

o NumPy和Pandas库（用于数据处理）

o Jupyter Notebook或类似IDE（用于代码编写和结果展示）

实验数据集

使用 California Housing 数据集：此数据集包含加利福尼亚州的房屋数据，包括多个特征（如房间数量、人口、平均收入等）以及目标变量 MedHouseVal（房价中位数，单位为千美元）。

实验步骤

1. 数据加载与初步探索

o 使用 fetch_california_housing 函数加载 California Housing 数据集。

o 将数据加载为 Pandas DataFrame，并对数据的基本统计信息、分布情况等进行探索性分析。

o 使用 Pandas、Matplotlib 等工具对数据进行初步探索。

2. 数据集划分

o 使用 train_test_split 方法将数据集分为训练集和测试集（80% 用于训练，20% 用于测试）。

3. 模型训练与预测

o 使用 LinearRegression 创建线性回归模型，并使用训练集对模型进行训练。

o 利用训练好的模型对测试集进行预测，并生成预测的房价数据。

4. 模型性能评估

o 使用 mean_squared_error 计算均方误差（MSE），评估预测值与实际值的差异。

o 使用 r2_score 计算 R² 分数，评估模型的拟合优度。

5. 结果可视化

o 绘制测试集实际房价与预测房价的对比图，直观展示模型的预测效果。

o 添加参考线帮助理解模型的预测偏差。

实验结果展示

o 均方误差（MSE）：展示测试集上的均方误差，以量化模型的平均预测误差。

o R² 分数：展示模型的 R² 分数，表示模型解释目标变量方差的比例。

o 实际房价与预测房价对比图：图表展示了测试集上实际房价与预测房价的关系，以便直观理解模型的表现。

实验总结

o 数据预处理的重要性：数据分割和特征选取是影响模型性能的关键，且在实际应用中，数据预处理对模型的效果提升具有明显帮助。

o 模型性能分析：通过 MSE 和 R² 的结果可以看出，线性回归模型在此数据集上的表现受限，表明可能存在非线性关系。未来可以考虑更复杂的模型来提高预测效果。

o 实验改进方向：可以进一步探索多项式回归或其他非线性模型，以提高房价预测的精度。同时，特征工程和更多变量的引入也可能提升模型的解释力。

实验代码参考

以下是一个通过线性回归模型来预测加利福尼亚州各区域房价的代码实例：

——————————————

# 导入必要的库

import numpy as np # 用于科学计算的库，提供数组支持

import pandas as pd # 用于数据处理的库

import matplotlib.pyplot as plt # 用于绘图

import seaborn as sns # 提供更美观的绘图样式

from sklearn.datasets import fetch_california_housing # 加载California房价数据集

from sklearn.model_selection import train_test_split # 数据集划分函数

from sklearn.linear_model import LinearRegression # 线性回归模型

from sklearn.metrics import mean_squared_error, r2_score # 评价指标：均方误差和R²分数

# 加载加利福尼亚房价数据集

# 将数据集转换为DataFrame并添加列名

# 将目标值转为Series对象

# 拆分数据集，80%用于训练，20%用于测试

# 创建线性回归模型

# 在训练集上训练模型

# 在测试集上进行预测

# 评估模型性能

# 可视化实际房价与预测房价的对比

# 设置图表大小

# 绘制散点图表示实际值和预测值的关系

# 设置x轴标签

# 设置y轴标签

# 设置图表标题

# 添加参考线，用于显示理想预测效果的对比

# 显示网格

# 显示图表

——————————————

图片预览