DiffEqFlux.jl – Julia 神经微分方程库

在本博文中，我们将向您展示如何在 Julia 中轻松、高效且稳健地将微分方程 (DiffEq) 求解器与神经网络一起使用。

Flux ODE Training Animation

《神经常微分方程》论文甚至在获得 2018 年 NeurIPS 最佳论文之一之前就引起了广泛关注。该论文已经给出了将这两个截然不同的领域结合起来的一些令人振奋的结果，但这仅仅是个开始：神经网络和微分方程天生就是为了在一起。本博文是 Flux、DifferentialEquations.jl 作者以及神经 ODE 论文作者之间的合作，将解释原因，概述这项工作的当前和未来方向，并开始展示最先进工具的可能性。

Julia DifferentialEquations.jl 库在数值求解微分方程方面的优势已在其他文章中详细讨论。除了它对经典 Fortran 方法进行的广泛基准测试，它还包括其他现代功能，例如GPU 加速、分布式（多节点）并行和复杂的事件处理。最近，这些原生 Julia 微分方程求解器已成功嵌入到 Flux 深度学习包中，以允许在神经网络中使用经过全面测试和优化的 DiffEq 方法套件。使用新的软件包 DiffEqFlux.jl，我们将向读者展示如何使用各种微分方程模型（包括刚性常微分方程、随机微分方程、延迟微分方程和混合（不连续）微分方程）轻松地将微分方程层添加到神经网络中。

这是第一个将功能齐全的微分方程求解器库和神经网络无缝结合在一起的工具箱。本博文还将展示为什么需要完整微分方程求解器套件的灵活性。通过能够将神经网络与 ODE、SDE、DAE、DDE、刚性方程以及用于伴随灵敏度计算的不同方法融合在一起，这是对神经 ODE 工作的重大推广，并将使研究人员能够更好地探索问题域。

（注意：如果您对此项工作感兴趣，并且是本科生或研究生，我们在此领域有Google Summer of Code 项目可用。这在整个夏天支付相当丰厚的报酬。请加入Julia Slack 和 #jsoc 频道以更详细地讨论。）

微分方程与机器学习有什么关系？
什么是神经常微分方程 (ODE)？
如何求解 ODE？
让我们将 ODE 放入神经网络框架中！
为什么完整 ODE 求解器套件对于做好这件事是必要的？
有哪些类型的微分方程？
在 Julia 中实现神经 ODE 层
通过示例了解神经 ODE 层的行为
核心技术挑战：通过微分方程求解器进行反向传播
结论

微分方程与机器学习有什么关系？

不熟悉该领域的人可能首先问的一个问题是，为什么微分方程在这种情况下很重要？简单的答案是，微分方程是一种通过数学编码先验结构假设来指定任意非线性变换的方法。

让我们稍微分解一下这个陈述。有三种常见的定义非线性变换的方法：直接建模、机器学习和微分方程。直接写下非线性函数只有在你了解输入和输出之间确切的函数形式时才有效。但是，在许多情况下，这种确切的关系并非先验已知。那么，如果你不知道非线性，如何进行非线性建模呢？

解决此问题的一种方法是使用机器学习。在典型的机器学习问题中，你会得到一些输入 $x$ ，并且你想预测一个输出 $y$ 。从 $x$ 生成预测 $y$ 是一个机器学习模型（我们称之为 $ML$ ）。在训练期间，我们试图调整 $ML$ 的参数，使其生成准确的预测。然后，我们可以使用 $ML$ 进行推理（即，为新输入 $x$ 生成 $y$ ）。这仅仅是一个非线性变换 $y=ML(x)$ 。之所以 $ML$ 很有趣，是因为它的形式很简单，但它会适应数据本身。例如，一个简单的带有 sigmoid 激活函数的神经网络（以设计矩阵形式表示）仅仅是矩阵乘法，后面跟着 sigmoid 函数的应用。具体来说，

ML(x)=\sigma(W_{3}\cdot\sigma(W_{2}\cdot\sigma(W_{1}\cdot x)))

这是一个三层深层神经网络，其中 $W=(W_1,W_2,W_3)$ 是可学习的参数。然后选择 $W$ 使得 $ML(x)=y$ 合理地拟合你想要拟合的函数。机器学习的理论和实践证实，这是一种学习非线性的好方法。例如，通用逼近定理指出，对于足够多的层或足够多的参数（即足够大的 $W_{i}$ 矩阵）， $ML(x)$ 可以近似任何非线性函数足够接近（受常见约束条件限制）。

所以很好，这总是有效！但它有一些注意事项，主要的是它必须从数据中直接学习关于非线性变换的所有内容。在许多情况下，我们不知道完整的非线性方程，但我们可能知道它的结构细节。例如，非线性函数可能是森林中兔子的数量，我们可能知道它们的出生率取决于当前的数量。因此，与其从无到有，我们可能希望利用这种已知的先验关系和一组定义它的参数。对于兔子，假设我们想要学习

\text{rabbits tomorrow} = \text{Model}(\text{rabbits today}).

在这种情况下，我们事先知道出生率取决于当前的数量。用数学方法说明这种结构假设的方法是通过微分方程。在这里，我们说的是，在给定的时间点，当兔子数量更多时，兔子种群的出生率会增加。最简单的编码方法是

\text{rabbits}'(t) = \alpha\cdot \text{rabbits}(t)

其中 $\alpha$ 是某个可学习常数。如果你懂微积分，这里解是来自起点的指数增长，增长率为 $\alpha$ ： $\text{rabbits}(t_\text{start})e^{(\alpha t)}$

因此，随着我们的机器学习模型不断发展，对越来越多的数据的需求，微分方程已成为指定非线性函数的诱人选择，这种方式既可学习（通过参数），又受约束。它们本质上是将输入和输出之间结构关系的先验领域特定知识纳入模型的一种方法。从这种看待两种方法的角度来看，两种方法都各有优缺点，使它们成为建模的互补工具。将它们以新颖和令人兴奋的方式结合起来，似乎是科学实践中一个明确的下一步！

什么是神经常微分方程 (ODE)？

神经常微分方程是将这两个领域结合起来的众多方法之一。最简单的解释是，我们希望学习非线性变换的结构，而不是直接学习非线性变换。因此，我们不是做 $y=ML(x)$ ，而是将机器学习模型放在导数上， $y'(x) = ML(x)$ ，然后求解常微分方程。为什么要这样做呢？一个动机是，以这种方式定义模型，然后使用最简单、最容易出错的方法（欧拉方法）求解常微分方程，你得到的结果相当于一个残差神经网络。欧拉方法的工作原理基于这样一个事实，即 $y'(x) = \frac{dy}{dx}$ ，因此

\Delta y = (y_\text{next} - y_\text{prev}) = \Delta x\cdot ML(x)

这意味着

y_{i+1} = y_{i} + \Delta x\cdot ML(x_{i}).

这在结构上与 ResNet 类似，ResNet 是最成功的图像处理模型之一。神经常微分方程论文的见解是，越来越深、越来越强大的类似 ResNet 的模型有效地近似了一种“无限深”的模型，因为每层都趋向于零。我们不需要添加更多层，而是可以直接对微分方程进行建模，然后使用专门的常微分方程求解器来求解。数值常微分方程求解器是一门科学，可以追溯到第一台计算机，现代常微分方程求解器可以自适应地选择步长 $\Delta x$ ，并使用高阶近似来大幅减少所需的实际步数。事实证明，这在实践中也很好用。

如何求解 ODE？

首先，如何以数值方式指定和求解常微分方程？如果你不熟悉常微分方程求解，你可能想观看我们的 Julia 中常微分方程求解视频教程，并查看 DifferentialEquations.jl 文档的常微分方程教程。思路是通过导数方程 u'=f(u,p,t) 定义一个 ODEProblem，并提供一个初始条件 u0 和一个时间跨度 tspan 来进行求解，并指定参数 p。

例如，Lotka-Volterra 方程描述了兔子和狼的种群动态。它们可以写成

x^\prime = \alpha x + \beta x y

DiffEqFlux.jl – Julia 神经微分方程库

2019 年 1 月 18 日 | Chris Rackauckas, Mike Innes, Yingbo Ma, Jesse Bettencourt, Lyndon White, Vaibhav Dixit