type
Page
status
Invisible
date
Feb 9, 2026
slug
Machine_Learning/deep-learning-study-notes/3_2
summary
动手深度学习v2课程
tags
机器学习
深度学习
category
icon
password
在这一节中,我们将从零开始实现整个方法,包括数据流水线、模型、损失函数和小批量随机梯度下降优化器。 虽然现代的深度学习框架几乎可以自动化地进行所有这些工作,但从零开始实现可以确保我们真正知道自己在做什么。同时,了解更细致的工作原理将方便我们自定义模型、自定义层或自定义损失函数。在这一节中,我们将只使用张量和自动求导。
3.2.1. 生成数据集
为了简单起见,我们将根据带有噪声的线性模型构造一个人造数据集。我们的任务是使用这个有限样本的数据集来恢复这个模型的参数。我们将使用低维数据,这样可以很容易地将其可视化。在下面的代码中,我们生成一个包含个样本的数据集,每个样本包含从标准正态分布中采样的个特征。我们的合成数据集是一个矩阵。
使用线性参数,和噪声项生成数据集及其标签:
可以视为模型预测和标签时的潜在观测误差。在这里我们认为标准假设成立,即服从均值为0的正态分布。为了简化问题,我们将标准差设为0.01。下面的代码生成合成数据集。
注意,
features中的每一行都包含一个二维数据样本, labels中的每一行都包含一维标签值(一个标量)。通过生成第二个特征
features[:, 1]和labels的散点图, 可以直观观察到两者之间的线性关系。3.2.2. 读取数据集
训练模型时要对数据集进行遍历,每次抽取一小批量样本,并使用它们来更新我们的模型。由于这个过程是训练机器学习算法的基础,所以有必要定义一个函数,该函数能打乱数据集中的样本并以小批量方式获取数据。
在下面的代码中,我们定义一个
data_iter函数,该函数接收批量大小、特征矩阵和标签向量作为输入,生成大小为batch_size的小批量。每个小批量包含一组特征和标签。利用GPU并行运算的优势,处理合理大小的“小批量”。每个样本都可以并行地进行模型计算,且每个样本损失函数的梯度也可以被并行计算。GPU可以在处理几百个样本时,所花费的时间不比处理一个样本时多太多。
直观感受一下小批量运算:读取第一个小批量数据样本并打印。每个批量的特征维度显示批量大小和输入特征数。同样的,批量的标签形状与
batch_size相等。上面实现的迭代对教学来说很好,但它的执行效率很低,可能会在实际问题上陷入麻烦。例如,它要求我们将所有数据加载到内存中,并执行大量的随机内存访问。在深度学习框架中实现的内置迭代器效率要高得多,它可以处理存储在文件中的数据和数据流提供的数据。
3.2.3. 初始化模型参数
在我们开始用小批量随机梯度下降优化我们的模型参数之前,我们需要先有一些参数。在下面的代码中,我们通过从均值为0、标准差为0.01的正态分布中采样随机数来初始化权重,并将偏置初始化为0。
在初始化参数之后,我们的任务是更新这些参数,直到这些参数足够拟合我们的数据 每次更新都需要计算损失函数关于模型参数的梯度。有了这个梯度,我们就可以向减小损失的方向更新每个参数。因为手动计算梯度很枯燥而且容易出错,所以没有人会手动计算梯度。我们使用前面提到的自动微分来计算梯度。
3.2.4. 定义模型
接下来,我们必须定义模型,将模型的输入和参数同模型的输出关联起来。回想一下,要计算线性模型的输出,我们只需计算输入特征和模型权重的矩阵-向量乘法后加上偏置。注意,上面的是一个向量,而是一个标量。回想一下之前提到的广播机制:当我们用一个向量加一个标量时,标量会被加到向量的每个分量上。
3.2.5. 定义损失函数
使用3.1节提到过的平方损失函数。在实现中,我们需要将真实值
y的形状转换为和预测值y_hat的形状相同。3.2.6. 定义优化算法
这里使用小批量随机梯度下降。
在每一步中,使用从数据集中随机抽取的一个小批量,然后根据参数计算损失的梯度。接下来,朝着减少损失的方向更新我们的参数。下面的函数实现小批量随机梯度下降更新。该函数接受模型参数集合、学习速率和批量大小作为输入。每一步更新的大小由学习速率
lr决定。因为我们计算的损失是一个批量样本的总和(sum),而我们期望得到的是一个平均梯度,因此要除以batch_size。3.2.7. 训练
在每次迭代中,我们读取一小批量训练样本,并通过我们的模型来获得一组预测。计算完损失后,我们开始反向传播,存储每个参数的梯度。最后,我们调用优化算法
sgd来更新模型参数。概括一下,我们将执行以下循环:
- 初始化参数
- 重复以下训练,直到完成
- 计算梯度
- 更新参数
在每个迭代周期(epoch)中,我们使用
data_iter函数遍历整个数据集,并将训练数据集中所有样本都使用一次(假设样本数能够被批量大小整除)。这里的迭代周期个数num_epochs和学习率lr都是超参数,分别设为3和0.03。设置超参数很棘手,需要通过反复试验进行调整。现在先忽略这些细节。因为我们使用的是自己合成的数据集,所以我们知道真正的参数是什么。因此们可以通过比较真实参数和通过训练学到的参数来评估训练的成功程度。事实上,真实参数和通过训练学到的参数确实非常接近。
在机器学习中,我们通常不太关心恢复真正的参数,而更关心如何高度准确预测参数。幸运的是,即使是在复杂的优化问题上,随机梯度下降通常也能找到非常好的解。 其中一个原因是,在深度网络中存在许多参数组合能够实现高度精确的预测。
3.1.8. 小结
- 我们学习了深度网络是如何实现和优化的。在这一过程中只使用张量和自动微分,不需要定义层或复杂的优化器。
- 这一节只触及到了表面知识。在下面的部分中,我们将基于刚刚介绍的概念描述其他模型,并学习如何更简洁地实现其他模型。
