2.5 自动微分 | Yuyuzheng2499 の Blog

type

Page

status

Invisible

date

Jan 8, 2026

slug

summary

动手深度学习v2课程

2.5.1. 一个简单示例

假设相对函数关于列向量求导。首先，创建变量并为其分配一个初始值。

在计算关于的梯度之前，需要一个地方来存储梯度，而不是每次都重新开辟新内存。因为训练同一个参数会被反复更新成千上万次，如果每次都新建一块内存，很容易爆内存。

一个标量函数关于向量的梯度是向量，并且与具有相同的形状。接下来计算

x是一个长度为4的向量，计算x和x的点积，得到了输出。接下来，通过调用反向传播函数来自动计算y关于x的每个分量的梯度，并打印它们。

函数关于的梯度应为。接下来验证一下

接下来计算x的另一个函数

当y不是标量时，向量y关于向量x的导数的最自然解释是一个矩阵。对于高阶和高维的y和x，求导的结果可以是一个高阶张量。

然而，虽然这些更奇特的对象确实出现在高级机器学习中（包括深度学习中），但当调用向量的反向计算时，我们通常会试图计算一批训练样本中每个组成部分的损失函数的导数。这里，我们的目的不是计算微分矩阵，而是单独计算批量中每个样本的偏导数之和。

有时，我们希望将某些计算移动到记录的计算图之外。例如，假设y是作为x的函数计算的，而z则是作为y和x的函数计算的。想象一下，我们想计算z关于x的梯度，但由于某种原因，希望将y视为一个常数，并且只考虑到x在y被计算后发挥的作用。

这里可以分离y来返回一个新变量u，该变量与y具有相同的值，但丢弃计算图中如何计算y的任何信息。换句话说，梯度不会向后流经u到x。因此，下面的反向传播函数计算z=u*x关于x的偏导数，同时将u作为常数处理，而不是z=x*x*x关于x的偏导数。

由于记录了y的计算结果，我们可以随后在y上调用反向传播，得到y=x*x关于的x的导数，即2*x。

使用自动微分的一个好处是：即使构建函数的计算图需要通过Python控制流（例如，条件、循环或任意函数调用），我们仍然可以计算得到的变量的梯度。在下面的代码中，while循环的迭代次数和if语句的结果都取决于输入a的值。

接下来计算梯度

我们现在可以分析上面定义的f函数。请注意，它在其输入a中是分段线性的。换言之，对于任何a，存在某个常量标量k，使得f(a)=k*a，其中k的值取决于输入a，因此可以用d/a验证梯度是否正确。