机器学习实验过程中,需要对获取到的数据进行分析,往往第一步就是导入数据。导入数据有很多方式,不同的数据文件需要用到不同的导入方式,相同的文件也会有几种不同的导入方式。下面总结几种常用的文件导入方法。
方法一:导入numpy包,读取本地文件
1.1 numpy读取本地文本文件
1.2 numpy导入本地.npy or .npz文件
方法二:导入pandas包,读取本地文件
2.1 pandas读取csv格式数据
2.2 pandas读取excel格式数据
2.3 pandas读取json格式数据
2.4 pandas读取html格式数据
2.5 pandas读取剪贴板数据
方法三:利用sklearn包datasets模块导入uci数据库
sklearn(Scikit-learn)是一个广泛使用的Python机器学习库,它提供了许多用于实验和学习的数据集。UCI数据库(University of California, Irvine Machine Learning Repository)是一个在线的机器学习数据库,包含了大量的数据集供研究人员使用。尽管sklearn.datasets不直接连接UCI数据库,但它确实包含了一些从UCI数据库以及其他来源精选出来的数据集。这些数据集通常经过预处理,使得它们可以轻松地与Scikit-learn的机器学习算法一起使用。
from sklearn.datasets import load_iris
from sklearn.datasets import load_digits
from sklearn.datasets import fetch_california_housing
方法四:在线下载uci数据集到内存
在线下载数据集并将其加载到内存中,通常这涉及到使用HTTP请求库(如requests)来下载数据,然后使用适当的解析库(如pandas或numpy)来处理数据。
# UCI数据集的URL(这里以鸢尾花数据集为例)
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"
# 发送HTTP GET请求来下载数据集
response = requests.get(url)

