Julia 项目，就像任何大型开源项目一样，每天都会收到大量的错误报告。作为该语言的开发者，我们尽力尽可能地响应，并尽快对错误进行分类、调查和修复。对于一些错误，这很容易。如果错误报告写得很好，并且问题很明显，那么修复它通常很快。但是，对于大量的报告，情况并不总是那么简单。错误长期未得到解决的原因有很多，例如

错误可能无法确定性地重现，或者可能只在报告者的机器上重现（有时被称为 Heisenbug）。
错误报告可能没有完整地说明错误发生的具体环境，这使得难以重现。
错误报告者可能只见过一次错误，但并不完全确定是什么导致了它，这使得很难提供一个重现步骤，也使得错误报告基本上无法操作。
错误可能只发生在一个大型项目中，而该项目很难设置。
错误可能需要专业知识才能诊断（例如，缺少 GC 根）。通常，这类专家的时间需求很高，这使得为重现和调查这类错误所需的精力投入成为不可能。

此外，还有一些从未被提交的错误，因为用户可能觉得写高质量的错误报告的付出太高了。这样的经历对遇到错误的用户和我们来说都很令人沮丧。我们常常不知道这些经历，有时直到几年后才会听到。有些人可能因为遇到了无法简化成简洁的错误报告的崩溃问题而放弃了在 Julia 中进行的项目，然后就放弃了在项目中使用 Julia。最后，我们不想也不希望我们的用户成为专家级的错误报告者。他们通常是善于编程的科研人员，但可能没有软件工程方面的背景。他们是我们最有价值的用户，我们要确保他们的错误得到解决。

在过去，对于遇到特别困难问题的用户，我们一直有一个答案：如果你可以在 Linux 机器上重现问题，并从 rr 工具 https://rr-project.org/ 中获取跟踪信息，我们就可以快速帮你解决问题。对于不太熟悉 rr 的人来说，它是一个 Linux 调试工具，最初由 Robert O'Callahan 和其他人开发于 Mozilla。它被称为“时光倒流调试器”或“逆向执行引擎”。本质上，rr 将重现错误分为两个阶段：“记录”和“回放”。记录阶段由错误报告者完成。在此阶段，rr 会创建执行的完美记录，包括按位精确的内存和寄存器状态，在每条指令执行后都会记录。然后可以在回放阶段（可以在不同的机器上由不同的开发者完成）分析该跟踪信息。这些功能在学术界一直被设想，但很难以不引入大型开销或扭曲正常执行的方式实现。rr 是第一个（根据我们的经验）性能足以在开发的日常工作中使用的工具。值得讨论一下它是如何实现的（以及这种方法的局限性），但首先让我们假设这些功能的存在，看看它支持的工作流程。

在将于几周后发布的 Julia 1.5 中，现在有一个新的命令行标志 --bug-report=rr，它会自动创建和上传一个 rr 记录。本篇文章开头的动画展示了一个示例用法（它只是通过不安全地取消引用一个错误指针来故意导致崩溃）。然而总结一下

错误报告者向她的 Julia 实例传递 --bug-report=rr，并重现她试图重现的任何错误。
一旦 Julia 退出或崩溃，错误报告者会被提示通过点击一个链接来授权上传（使用基于 GitHub 的身份验证来防止滥用）。然后她会得到一个链接，在向 Julia 或其他软件包提交错误报告时需要包含该链接。
任何开发者都可以使用该链接获取记录并分析其自身的机器。

除了这种手动机制之外，我们还将我们的 Linux CI 系统切换到自动创建任何执行的 rr 跟踪信息。这样，如果 CI 运行失败，我们就可以保证能够调试它。

如果错误报告中包含指向 rr 跟踪信息的链接，理论上就不需要任何其他重现说明。rr 跟踪信息可以保证完美地捕获重现错误的环境。当然，如果错误不是显而易见的，比如意想不到的行为，一些关于预期行为的评论可能仍然会有所帮助。拥有完美的可重现性几乎立即消除了我文章开头提到的所有常见问题。“在我的机器上可以正常运行”不再是一个可行的答案。如果它在跟踪信息中，那么它就在某个人的机器上崩溃了，可以进行调试。 “Heisenbug”不再是一个问题。如果它在 rr 中被捕获了一次，那么它就可以随时被调试。它甚至解决了繁忙的专家问题，因为它允许非专家参与分类。如果这样的报告不包含 rr 跟踪信息，任何开发者，尤其是非专家，都可以尝试重现错误并创建跟踪信息。即使专家仍然需要进行最终诊断，从 rr 跟踪信息中进行诊断也要比从简单的错误报告中进行诊断快几个数量级。

为傻瓜准备的占卜学

计算机从根本上来说是确定性的机器。给定等效状态作为输入，大多数指令会产生确定的状态作为输出。那么，所有导致执行差异并阻止错误重现的细微执行差异从何而来呢？好吧，完整的答案很复杂，有很多细节，但大致可以分为以下几种情况

输入状态的大小。简单来说，这种状态至少包含你的整个硬盘和内存。这至少是 $2^{2^\text{large}}$ 个位的状态，每个位都可能导致执行差异。你真的需要弄清楚哪些状态是相关的，因为 $2^{2^\text{large}}$ 可能太多了，无法发送给任何人。
任何输入或其他异步事件。这可能意味着用户输入，或来自网络（通过 NIC）或其他设备的数据。它也意味着诸如中断的计时之类的事件。
多线程执行中的执行顺序和数据竞争。
对非确定性硬件效应的直接观察（即上述的“大多数”限定词）。这包括故意非确定性的指令，例如 RDRAND，它会生成一个随机数。它还包括可观察到的，但不可取的硬件状态效应（例如，来自缓存或分支预测器状态的计时侧信道）。

然而，理论上，如果一个工具能够捕获来自这些类别的 100% 的相关状态，它就可以重复生成完全相同的内存映像。这不是一个新颖的想法，但关键在于细节。讨论这些细节超出了本文的范围，但这里提供一个简单的解释：对于异步事件，我们如何定义该事件相对于其他执行的“何时”发生。也就是说，时间的正确概念是什么？实时不适用，因为指令发出频率不是恒定的（除了处理时间的所有常见问题）。也许最方便的是使用已经执行的指令数，但根据硬件（将在下面的硬件部分进行一些讨论），这里存在一些挑战。

概括地说，对于某个输入状态 $\mathcal{S_{i}}$

\mathcal{S}_{i+1} = \begin{cases} \mathcal{A}_i(S_{i}) & \text{if an asynchronous event occurred at time $i$} \\ \mathcal{I}_{\text{ip}(\mathcal{S}_i)} & \text{otherwise} \end{cases}

Julia 1.5 功能预览：时光倒流（Linux）错误报告

2020 年 5 月 2 日 | Keno Fischer

为傻瓜准备的占卜学

性能考虑

硬件和软件限制

关于隐私的一句话

未来展望

利益冲突免责声明/资金确认