我们现在正处在 2018 年 Google Summer of Code 的另一端。这是一个充满挑战和教育意义的经历，我不会想要以其他方式度过它。我感谢 Julia 社区，尤其是我的导师 @MikeInnes 对我的支持。我学到了很多东西，比以前更熟悉神经网络，也学会了如何进行基本的 GPU 编程，这对我的学术生涯将非常有用。

这篇博客文章的剩余部分将总结我的项目和我在整个夏天所做的工作，谈论哪些工作还有待完成，并以简短的教程作为结尾，介绍如何运行我编写的代码，以便你自己尝试。

你是否曾经想过让你的电脑理解语音？
CTC 网络的结果
帧级网络的结果
还有待完成的工作
运行模型
1. CTC 模型
2. 帧级模型
获取代码
参考文献

你是否曾经想过让你的电脑理解语音？

语音识别目前在许多科技公司中十分流行。例如，谷歌和亚马逊正在大力推广其独立的数字助理设备，分别是 Google Home 和 Alexa。如果没有功能完善的语音识别，这些产品将毫无用武之地。

不幸的是，对于许多研究人员和潜在的语音识别用户来说，语音识别系统的文档似乎不像图像识别那样多。这个 2018 年 Google Summer of Code 项目的目标是向 Flux 模型库贡献一些语音识别模型，以便其他人可以从这些模型中进行工作。

在项目结束时，编码了两个不同的模型。第一个是使用连接主义时间分类 (CTC) 损失函数的一种相当新的方法（Graves 等人，2006 年）。要实现的模型来自 Zhang 等人（2017 年），它使用卷积层来学习数据中的时间依赖关系，这与使用 CTC 损失的传统方法不同，后者使用循环层。这是一个非常深的网络，作者认为它可以学习时间依赖关系。

第二个网络是一种较老式的帧级识别模型，灵感来自 Graves & Schmidhuber（2005 年）。它预测通过网络传递的每个音频块的类别，并使用分类交叉熵作为其损失函数。它将作为 CTC 网络的基线进行比较。

对于那些不熟悉语音识别系统的人来说，将声学映射到音素标签仍然是一个尚未解决的问题，因为没有人能够仅对音频帧的标签识别达到 95% 或 99% 的准确率。因此，报告的准确率可能看起来不令人满意（CTC 网络的准确率肯定是不令人满意的），但这也是语音识别系统的特征。

CTC 网络的结果

一旦分解为步骤，这个项目的主要任务是实现网络架构，并在 Flux 和 Julia 中实现 CTC 损失函数。这两个任务的朴素实现都很容易，但性能不适合训练网络。回想起来，提高网络的计算效率并不困难，因为只需要在 Flux 的 Chain 函数中添加一个 reshape 调用即可连接卷积层和全连接层。

真正的挑战是使 CTC 损失正确有效地运行。我最初是在 CPU 上进行操作，然后最终决定对百度 GPU 实现的 CTC，warp-ctc，进行简单的移植。这是我第一次尝试编写 GPU 内核，我学到了很多东西。但在花了几个星期移植内核之后，我得到了一个可用的 GPU 实现的损失函数。或者至少我以为是这样。我花了几个星期尝试了各种优化器和各种训练配置和例程，但我无法让网络输出超出空白音素标签类别的预测。我在几篇博客文章中写到了这一点。

事实证明，我的实现中存在一个轻微的错误，该错误源于百度自己的 warp-ctc 库。就像我在写一篇关于这个错误的博客文章时一样，我不知道它在百度代码的其他部分中是否真的是一个错误。然而，在修复了错误之后，我发现我的代码中的损失显著下降。具体来说，有一部分代码计算结果为

\beta(t, u) = y_{l'_{u}}^{t+1}\sum_{i=u}^{g(u)}\beta(t+1,i)

而它应该计算结果为

\beta(t, u) = \sum_{i=u}^{g(u)}\beta(t+1,i)y_{l'_{i}}^{t+1}

GSoC 2018 和 Flux 模型库的语音识别：总结

2018 年 8 月 14 日 | Matthew C. Kelley

你是否曾经想过让你的电脑理解语音？

CTC 网络的结果

帧级网络的结果

还有待完成的工作

运行模型

CTC 模型

帧级模型

获取代码

参考文献