RFID世界网 > 新闻中心 > 物联网新闻 > 正文

谷歌提出结合深度强化学习的方法来实现通用量子控制

作者：丛末

来源：雷锋网

日期：2019-10-11 09:44:57

摘要：日前，谷歌在 Nature 合作期刊《npj Quantum Information》上发表了一篇论文，提出结合深度强化学习的方法来实现通用量子控制，从而能够极大地提高量子计算机的计算能力。谷歌也在官方博客上发表文章介绍了这项工作。

日前，谷歌在 Nature 合作期刊《npj Quantum Information》上发表了一篇论文，提出结合深度强化学习的方法来实现通用量子控制，从而能够极大地提高量子计算机的计算能力。谷歌也在官方博客上发表文章介绍了这项工作。

实现近期量子计算机的主要挑战之一与其最基本的组成有关：量子比特。量子位可以与任何携带与自身能量相近的东西交互，包括杂散光子(如不需要的电磁场)、声子(量子设备的机械性振荡)或量子亏损(制造期间所形成的芯片基板中的不规则性)，其中，量子亏损会不可预测地改变量子比特本身的状态。

而使问题进一步复杂化的是，用于控制量子比特的工具带来了许多挑战。研究者通过经典的控制方式来操作和读取量子比特：模拟信号以电磁场的形式耦合到其中嵌入了量子比特的物理基底，例如超导电路。这些控制电子设备中的缺陷(会造成白噪声)、来自外部辐射源的干扰以及数模转换器的波动会引入更多的随机误差，从而降低量子线路的性能。这些现实问题都会影响计算的保真度，因此限制了近期量子设备的应用。

为了提高量子计算机的计算能力，并为实现大规模量子计算铺路，就必须首先建立能够准确描述这些实验性问题的物理模型。

谷歌在 Nature 合作期刊《npj Quantum Information》上发表的《通过深度强化学习实现通用量子控制》(Universal Quantum Control through Deep Reinforcement Learning)论文中，提出了一种使用深度强化学习生成的新的量子控制框架，其中可以通过单个控制成本函数来概括量子可控制优化中的各类实际问题。与标准随机梯度下降的解决方案相比，该框架可将量子逻辑门的平均误差最多降低两个数量级，并且大幅降低了来自最优门生成的副本的门时间。这一结果为使用近期量子设备来开展量子仿真、量子化学和量子霸权测试开启了更加广阔的应用空间。

这种新的量子控制范式，其创新之处在于对量子控制函数的改进以及提出的基于深度强化学习的高效优化方法。

为了创建一个全面的成本函数，首先需要为实际的量子控制过程创建一个物理模型，基于该模型，我们能够可靠地预测误差量。对量子计算的准确性最不利的误差之一就是泄漏：在计算过程中损失的量子信息量。这种信息泄漏通常发生在量子比特的量子态被激发为较高能态或通过自发辐射衰退成较低能态时。泄漏误差不仅会损失有用的量子信息，而且还会降低「量子性」，并最终使量子计算机的性能降低得与经典计算机差不多。

在量子计算过程中准确地评估泄漏信息的常见做法是，一开始就模拟整个计算。然而，这并不利于达成构建大规模量子计算机的目的，因为量子计算机的优势就在于它们能够执行经典系统所无法执行的计算。谷歌研究人员通过使用改进后的物理模型，能够让通用的成本函数对逐渐增加的泄漏误差、控制边界条件的违背情况、总的门时间和门保真度进行联合优化。

创建了新的量子控制成本函数后，下一步就是应用高效的优化工具将该函数最小化。经证实，现有的优化方法无法找到对于控制波动同样具有鲁棒性的令人满意的高保真度解决方案。相反地，谷歌研究人员则采用同步策略的深度强化学习(RL)方法，即置信域强化学习(Trusted-Region RL)，因为该方法在所有基准问题中均表现出良好的性能，对样本噪声具有固有的鲁棒性，并且能够优化有着数亿个控制参数的数百种高难度的控制问题。

这种同步策略强化学习与先前研究的异步策略强化学习方法之间的显著差异在于，其对控制策略的表示独立于控制成本。另一方面，例如 Q 学习等异步策略强化学习使用单个神经网络(NN)来表示控制轨迹和相关的奖励，其中控制轨迹指定要耦合到不同时间步长的量子比特的控制信号，而相关的奖励则评估量子控制当前步长的好坏。

同步策略强化学习引人关注的一项能力在于：能够在控制轨迹中利用非本地特征。当控制领域是高维且包含大量组合的非全局解决方案时，这种能力就变得至关重要，而对于量子系统而言，这种情况经常发生。

研究人员将控制轨迹编码为一个完全连接的三层神经网络，即策略 NN，同时将控制成本函数编码为第二个神经网络(值 NN)，后者可以对折扣未来奖励(Discounted Future Reward)进行编码。强化学习智能体在模拟现实中的噪音控制驱动的随机环境下训练这两个神经网络，获得了鲁棒的控制解决方案。此外，他们还为一组连续参数化的两位量子门提供了控制解决方案，这对于量子化学应用而言很重要，不过，使用传统的通用量子门集实现这一操作，成本也很高。

谷歌又出量子计算新成果，这次用上了深度强化学习！

谷歌研究人员使用这一新框架进行的数值模拟结果表明，与通用量子门集的传统方法相比，该方法将量子门误差减少了 100 倍，与此同时，还为一系列连续参数化的模拟量子门将门时间减少了平均一个数量级。

这项工作凸显了使用创新性机器学习技术和能够利用通用量子控制方案的灵活性和附加计算能力的近期量子算法的重要性。进一步，该领域的研究者还需要做更多的实验来将机器学习技术(就比如说我们在这项工作中开发的技术)整合到实际的量子计算过程中，从而利用机器学习来充分提高量子计算机的计算能力。