普林斯顿大学新方法：不到10美元就能让强化学习训练提速万倍

2026-03-21 07:15:28分类：游戏阅读(40814)

这项由普林斯顿大学计算机科学系领导的突破性研究发表于2026年3月的arXiv预印本平台（论文编号：2603.12145v1），彻底改变了强化学习环境优化的游戏规则。在人工智能训练中，环境模拟一直是个巨大的瓶颈，就像一个厨师想要练习做菜，但每次切菜都要等上好几分钟一样效率低下。这项研究展示了如何用代码助手以极低的成本自动生成高性能的训练环境，实现了从1.5倍到22,320倍的惊人速度提升。

强化学习是让AI通过不断试错来学习的技术，就像教小孩玩游戏一样，需要反复练习才能掌握技巧。但问题在于，传统的训练环境运行得太慢了，就好比一个篮球教练想训练队员，但每次投篮后都要等好久才能看到结果，这样的训练效率可想而知。在典型的强化学习训练中，环境模拟会占用50%到90%的时间，而对于复杂的模拟器，比如包含10万行代码的Pokemon对战系统，或者精确到每个时钟周期的Game Boy模拟器，这种开销更是令人头疼。

以往解决这个问题需要专业工程师花费数月时间手工优化代码，成本高昂且需要深度专业知识。研究团队发现，现代代码助手AI配合巧妙的验证方法，能够自动完成这项工作，而且成本低得令人难以置信。他们开发了一套通用的翻译配方，包括通用提示模板、分层验证系统和迭代修复机制，能够将复杂的强化学习环境翻译成高性能版本，整个过程花费不到10美元。

这项研究的核心创新在于将传统上需要专业工程师数月完成的工作，转变为代码助手能够在几小时内自动完成的任务。研究团队通过五个不同领域的环境验证了这一方法：从Game Boy模拟器到Pokemon对战系统，从物理仿真到卡牌游戏，都实现了显著的性能提升。更令人印象深刻的是，这些优化后的环境在200M参数的模型训练中，环境开销降到了总训练时间的4%以下，彻底消除了训练瓶颈。

一、从手工艺到自动化生产的巨大飞跃

想象一下，如果每次想吃一道菜都需要从种植食材开始，那做饭将变成一项极其繁重的工作。强化学习环境优化的传统方式就是如此，每个新环境都需要专业工程师从零开始，深入理解复杂的代码结构，然后进行专门的性能优化。这个过程不仅耗时，还需要对特定领域有深入了解。

研究团队面临的核心问题是：能否让机器自动完成这项专业工作？就像从手工制作转向工厂生产一样，他们希望建立一套标准化的流程，让代码助手AI能够自动将慢速的参考实现转换为高速的性能版本。这个想法听起来简单，实际操作却充满挑战。

关键的突破在于时机。现代代码助手拥有超过100万token的上下文窗口，能够理解和处理大型代码库，而每个token的成本已经低到足以支撑大规模的迭代翻译工作。这就像有了一个既聪明又便宜的助手，能够阅读厚厚的技术手册并准确执行复杂任务。

研究团队设计的方法包含四个关键组件。首先是通用提示模板，就像给助手提供了标准的工作指南，无论面对什么类型的环境都能按照统一的流程处理。其次是分层验证系统，通过四个递进的验证级别确保翻译的正确性，从单个功能测试到完整策略迁移验证。第三是迭代修复机制，当发现问题时能够自动定位并修复错误。最后是跨后端验证，通过在不同实现之间训练和测试策略，确保没有引入任何性能差异。

这套方法的威力在于它的通用性。无论是Game Boy这样的硬件模拟器，还是Pokemon这样的复杂游戏逻辑，又或者是物理仿真引擎，都能用同样的框架处理。这就像有了一把万能钥匙，能够打开各种不同类型的锁。

二、五个环境的精彩表现

研究团队选择了五个截然不同的环境来验证他们的方法，每个环境都代表了不同的技术挑战和应用场景。这种多样性确保了方法的通用性和可靠性。

Game Boy模拟器EmuRust的改进展示了从Python到Rust的翻译威力。原始的PyBoy模拟器使用Python多进程架构，每个核心运行一个进程，但这种方式存在进程间通信开销。翻译后的Rust版本使用Rayon工作窃取线程池，在相同的32个CPU核心上能够运行128个环境实例，通过共享内存和协作调度实现了1.5倍的性能提升。这看似微小的提升实际上意义重大，因为它证明了即使是已经优化过的系统也能进一步改进。

Pokemon对战系统PokeJAX则展现了更加戏剧性的变化。原始的Pokemon Showdown是一个为人类在线对战设计的TypeScript服务器，单线程运行时只能达到每秒2.1万步的速度。通过WebSocket进行多实例运行时，由于通信开销，速度反而降到每秒681步。翻译后的JAX版本是第一个GPU并行的Pokemon对战模拟器，在65K批量大小下能够达到每秒5亿步的随机动作速度，实现了23,810倍的惊人提升。这种提升不仅仅是数字上的差异，它使得原本需要4天才能完成的基础课程学习现在只需要15分钟。

物理仿真环境HalfCheetah的翻译展现了代码助手处理复杂数学和物理计算的能力。这个环境需要处理9个自由度、7个刚体和6个执行器的关节体动力学，还要考虑地面接触。代码助手成功翻译了前向运动学、复合刚体算法、分析RNEA偏置力计算和接触雅可比矩阵，所有这些都用纯JAX实现。最终实现了与Google手工优化的MJX引擎相当的性能（1.04倍），在相同批量大小下比Brax快5倍。这证明了自动生成的代码能够达到手工优化的专业水准。

TCG卡牌游戏环境的创建展示了从规范到实现的完整翻译能力。研究团队从官方网站提取了游戏规则，首先构建了一个29,526行的Python参考实现，然后翻译成4,235行的JAX版本。这个过程特别有意义，因为Python参考实现是私有的，不存在于公共代码库中，这确保了代码助手无法依赖预训练数据中的记忆，必须真正理解和翻译逻辑。最终实现了6.6倍的性能提升，并且在12分钟内就能收敛到满分。

Pong游戏的翻译虽然看起来最简单，但实际上面临了不同的挑战。PufferLib的C语言Pong实现已经高度优化，每秒能够处理6000万步。但翻译成JAX后能够利用jax.lax.scan进行多步骤融合，将整个回合编译成单个GPU内核，完全消除了每步的CPU到GPU通信开销。这种架构变化实现了42倍的端到端PPO训练提升。

每个环境的成功翻译都经过了严格的四级验证。属性测试验证单个组件的输入输出对；交互测试验证跨模块的状态依赖和事件顺序；回合比较在相同种子和动作序列下执行完整回合，比较每个时间步的所有输出；跨后端策略迁移测试在一个后端训练的策略在另一个后端的性能，确保没有仿真到仿真的差距。

三、分层验证的精妙设计

理解分层验证系统就像理解质量控制的多道防线。当我们制造一个复杂产品时，仅仅在最后检查成品是不够的，需要在每个生产环节都设置检查点，这样才能及时发现和解决问题。

第一级属性测试专注于验证单个组件的正确性。这就像检查每个零部件是否符合规格，确保螺丝的螺纹正确、齿轮的齿数准确。对于Pokemon系统，这意味着验证每个招式的伤害计算、状态效果的持续时间、类型相性的加成倍数等等。代码助手会生成大量的测试用例，使用已知的输入输出对来验证翻译后的函数是否产生相同的结果。

第二级交互测试验证模块之间的协作是否正常。这就像检查装配好的部件是否能够正常配合工作，齿轮之间是否啮合顺畅、电路连接是否正确。在Game Boy模拟器中，这意味着验证CPU执行指令时是否正确推进PPU的时钟周期数，内存银行切换是否影响到正确的地址范围，中断信号是否能够正确传递给CPU。这一级测试捕获的是单个组件正确但组合后出现问题的情况。

第三级回合比较提供端到端的验证。这相当于让整个产品运行完整的工作周期，观察最终输出是否符合预期。系统会在参考实现和性能实现中使用相同的随机种子和动作序列，运行100个完整回合，比较每个时间步的所有观察值、奖励和终止信号。对于离散环境要求完全匹配，对于连续值环境（如物理仿真）允许小的数值误差但要求训练动态等价。

第四级跨后端策略迁移是最严格的测试。这就像让两个不同工厂生产的产品进行互换性测试，确保它们在实际使用中表现完全一致。系统会在性能环境中训练一个策略，然后在参考环境中评估其性能，反之亦然。使用TOST等价性检验程序来统计验证两个后端产生的性能在预设误差范围内等价。这一级测试能够发现微妙的语义差异，这些差异可能不会在脚本化测试中显现，但会在策略实际访问的状态分布下暴露出来。

分层验证的威力在于错误定位和修复的效率。当第三级测试发现回合在第847步出现分歧时，系统不会盲目地重新生成整个代码库，而是会分析失败的根本原因，然后添加针对性的第一级或第二级测试来捕获这种特定的错误模式。这就像医生进行诊断一样，先做初步检查缩小问题范围，然后进行针对性的详细检查。

这种分层方法的重要性通过对比实验得到了证实。在HalfCheetah环境的对照实验中，仅使用第三级验证的方法在42次迭代后仍无法收敛，而完整的分层验证在5次迭代内就成功收敛，效率提升了8.4倍。原因在于端到端测试虽然能发现问题，但无法提供足够精确的错误定位信息，代码助手只能在广阔的可能性空间中盲目搜索解决方案。

四、成本与效率的革命性突破

这项研究最令人震撼的发现之一是成本的急剧下降。将复杂的强化学习环境翻译成高性能版本的总费用竟然不到10美元，这个数字在传统软件开发的背景下显得几乎不可思议。

以Pokemon系统为例，这个包含超过10万行TypeScript代码的复杂系统，涉及2,834个物种和1,370个招式的翻译，总计花费仅为6美元。这个成本包括了所有的翻译迭代、错误修复和验证过程。相比之下，雇用专业工程师进行类似工作可能需要数月时间和数万美元的人工成本。

成本控制的关键在于现代语言模型的经济性改进。每个token的价格已经降低到可以支撑大规模迭代翻译的水平。即使是最复杂的PokeJAX翻译，消耗了29.3M输入token，在79%-95%的缓存命中率下，总成本仍然控制在可接受范围内。这就像从昂贵的手工制作转向了高效的工业生产线。

研究团队发现，代码复杂度与翻译成本之间并非线性关系。虽然PokeJAX有55,629行目标代码，比EmuRust的2,511行多20倍，但成本只增加了14倍。这种次线性的成本增长主要归功于模块化设计和代码重用，类似于软件开发中的规模经济效应。

翻译效率的另一个亮点是迭代次数的合理控制。最简单的Pong环境只需要13次迭代就能完成翻译，而最复杂的EmuRust环境需要72次迭代。这种迭代次数远低于基于每行代码推断的预期值，说明代码助手能够有效地学习和应用翻译模式，而不是简单地逐行处理代码。

验证成本也出乎意料地可控。构建全面的测试套件通常是软件开发中最耗时的部分之一，但在这项研究中，测试生成和执行的成本已经包含在总翻译成本中。PokeJAX的2,783个测试、HalfCheetah的69个测试、EmuRust的52个测试，都是由代码助手自动生成的，不需要额外的人工编写。

这种成本效率带来的影响是深远的。研究人员不再需要在环境选择上妥协，可以为他们真正想要研究的问题创建高性能版本，而不是局限于现有的JAX移植版本。当参考实现更新时，重新翻译的成本不到1美元，测试套件还能作为回归防护。

五、训练时间分配的彻底重构

传统的强化学习训练中存在一个令人沮丧的现象：大部分时间都浪费在等待环境计算上，而真正的模型学习时间却很少。这就像一个学生想要练习解数学题，但每解完一道题后都要等很久才能看到答案，这样的学习效率可想而知。

研究团队通过详细的时间分析揭示了这个问题的严重程度。在典型的强化学习训练中，环境步骤会占用72%的时间，而模型的前向和后向传播只占28%。当使用高性能环境后，这个比例发生了戏剧性的逆转：环境开销降到4%，模型计算占据96%的时间。这意味着GPU的计算资源终于能够得到充分利用，而不是大部分时间在等待环境计算。

这种变化在不同模型规模下表现得更加明显。对于2M参数的小模型，原始环境仍然占用51%-71%的训练时间，但高性能环境将这一比例降到30%-39%。当模型规模增长到20M参数时，原始环境的开销依然高达25%-71%，而高性能环境降到7%-26%。最令人印象深刻的是200M参数模型的情况，原始环境仍占用12%-26%的时间，但高性能环境的开销几乎可以忽略不计，仅为1.1%-3%。

这种时间重分配的意义不仅仅是训练速度的提升，更重要的是它改变了研究的可能性边界。以前由于环境太慢而无法实际训练的复杂任务现在变得可行。Pokemon对战系统就是一个典型例子，原始的681步每秒使得基础课程学习需要超过4天，这在实际研究中几乎不可行。翻译后的15.2M步每秒使得同样的训练在15分钟内完成，把不可能变成了日常操作。

GPU内存利用的优化也带来了额外的效益。HalfCheetah在65K批量大小下使用约4GB GPU内存，PokeJAX在65K批量下使用28GB，TCGJax在16K批量下使用8GB。这些数字表明高性能环境能够有效利用现代GPU的大容量内存，通过大批量并行处理进一步提升效率。

数据传输开销的消除是另一个重要改进。传统的训练流水线中，CPU环境需要在每步后将观察数据传输到GPU，这种传输开销随着批量大小线性增长。JAX实现的scan-fused回合消除了这种开销，将整个回合编译成单个GPU内核，实现了零CPU到GPU传输。这就像从邮寄信件改为面对面交流，通信效率得到根本性提升。

六、跨领域验证的可靠性保证

确保翻译后的环境在语义上与原版完全等价是这项研究最关键的技术挑战。这不仅仅是代码能够运行的问题，而是要保证在任何可能的情况下，新旧环境的行为都完全一致。这就像制作一个艺术品的复制品，不仅外观要一模一样，连内在的细节和质感都要完美匹配。

策略迁移验证提供了最严格的等价性测试。系统会在一个环境中训练策略，然后在另一个环境中评估其性能。如果两个环境真正等价，那么策略的表现应该没有统计学差异。研究团队使用TOST双单侧检验程序来验证等价性，这比传统的差异检验更加严格，需要证明性能差异在预设误差范围内。

Pokemon系统的跨后端验证展现了完美的一致性。在JAX环境训练的策略在Showdown环境中的胜率完全相同（0.406±0.003），反之亦然。这种位级完全一致反映了确定性战斗模拟器的特点：给定相同的随机种子和动作序列，两个后端产生完全相同的游戏结果。

物理仿真环境的验证面临了不同的挑战。由于浮点运算的精度限制和数值积分的累积误差，完全的位级匹配是不现实的。研究团队采用了ε-等价性标准，允许每个组件的每步输出在L∞容忍度ε内变化，但要求训练动态在多个种子上保持等价。HalfCheetah的验证结果显示，MJX训练的策略在JAX环境中保持101%的性能，JAX训练的策略在MJX环境中保持110%的性能，都在预设的等价性边界内。

Game Boy模拟器的验证特别令人印象深刻，因为它涉及完整的硬件仿真，包括CPU、PPU、内存、中断和计时器的复杂交互。Rust训练的Pokemon红版策略转移到PyBoy时几乎保持完全相同的奖励（12.06±0.00 vs 12.06±0.01），这确认了像素级的模拟器翻译保真度，尽管涉及完整的Game Boy硬件仿真复杂性。

训练曲线比较提供了补充的验证证据。虽然重叠的±1σ误差带是等价性的必要条件，但不是充分条件。研究团队在10个不同种子上运行训练，观察学习曲线的收敛行为。Pong、HalfCheetah和EmuRust的结果显示，不同后端的学习曲线几乎完全重合，确认了一致的学习动态。

验证覆盖范围的设计也很周全。第一级测试针对每个导出函数的边界条件，线覆盖率从60%到98%不等。第二级测试练习多子系统操作序列。第三级回合比较在多样化的随机路径下练习完整的组合系统。训练曲线在策略学习诱导的随机状态分布下测试环境。这种分层覆盖确保了测试的全面性，虽然不是形式化的语义等价性保证，但通过多层验证提供了高置信度。

七、技术架构的巧妙选择

研究团队在技术路线选择上展现了深刻的洞察力。他们没有采用一刀切的方案，而是根据不同环境的特性选择最适合的目标平台：JAX用于纯函数式环境的GPU并行化，Rust用于有状态、内存密集型环境的CPU并行化。

JAX的选择基于其独特的优势。它能将纯函数式环境编译到GPU通过XLA，使用vmap进行批量并行化，通过jax.lax.scan进行多步融合。这种架构特别适合回合制游戏和卡牌系统，因为状态可以表示为固定大小的数组，分支逻辑可以通过lax.switch进行并行分发。Pokemon和TCG系统都充分利用了这种架构，实现了在单个GPU内核中处理数万个并行环境的能力。

Rust的选择则针对不同的需求。它适合有状态、内存密集型环境，可以利用Rayon的工作窃取线程池进行CPU并行化。Game Boy模拟器就是典型例子，需要维护复杂的内部状态（寄存器、内存、中断状态），并且内存访问模式不规则。Rust的零成本抽象和高效的并发原语使得它能够在相同CPU核心数下实现比Python多进程更高的吞吐量。

编译优化策略也很精妙。JAX环境充分利用了XLA编译器的优化能力，将复杂的游戏逻辑编译成优化的GPU内核。PokeJAX的1,370个招式函数通过lax.switch分发，虽然JIT编译时间达到45秒，但编译后的执行效率极高。这种一次编译、多次执行的策略在长期训练中提供了巨大的性能回报。

状态表示的设计选择同样关键。JAX环境要求固定大小的状态数组，这促使了从动态数据结构到静态数组的转换。TCG系统将Python列表转换为固定大小的(MAX_HAND_SIZE,)数组，使用哨兵值标记未使用的槽位。这种设计虽然可能浪费一些内存，但使JIT编译成为可能，最终的性能收益远超内存成本。

内存管理策略也经过精心设计。Rust环境使用Arc>进行只读数据的共享，无论批量大小如何都只保留一个内存副本。JAX环境通过in_axes=None标记共享常量，避免在批次维度上的重复。这些技术确保了内存使用的线性扩展，而不是随着环境数量的增加而爆炸性增长。

跨语言互操作也得到了妥善处理。Rust环境通过PyO3绑定暴露Gymnasium兼容的接口，使用零拷贝NumPy数组进行高效的Python-Rust边界传输。JAX环境暴露标准的step(state, action) -> (state, reward, done)接口，既可以用于PureJaxRL风格的scan-fused训练，也可以通过NumPy桥接包装为基于Gymnasium的框架。

八、实际应用的深远影响

这项研究的影响远远超出了学术范围，它有可能彻底改变强化学习研究和应用的方式。就像从手工作坊转向工业化生产一样，这种自动化翻译能力将研究的焦点从技术实现转向问题本身。

训练赋能效应是最直接的影响。TCG和PokeJAX的例子表明，一些环境的原始实现速度太慢，根本无法进行实际的强化学习研究。TCG系统需要约6500万环境步骤才能收敛，在Python参考实现的23K步每秒速度下，实际训练循环会延长到数小时，期间训练不稳定性会累积。JAX版本在12分钟内收敛，使得迭代实验变为可能。类似地，PokeJAX使得复杂的Pokemon AI研究从不可行变为日常操作。

研究边界的扩展同样重要。研究人员不再需要在环境选择上妥协，可以为他们真正想要研究的问题创建高性能版本。这消除了现有JAX移植限制的瓶颈，就像打开了新的研究领域。每当出现新的有趣环境时，研究团队可以快速创建高性能版本，而不需要等待专业工程师花费数月时间进行手工优化。

基础模型训练的影响可能最为深远。需要在许多环境中训练的基础RL架构会放大慢速模拟的成本，这种自动化高性能环境生成能力为可扩展的多环境训练提供了基础设施支持。当训练数据需要来自数十或数百个不同环境时，每个环境的速度提升都会产生复合效应。

成本经济学的改变也很显著。重新翻译的成本不到1美元，测试套件可以作为回归保护，使得维护高性能环境变得经济可行。这意味着研究团队可以跟上快速发展的环境生态系统，而不会因为重新优化的成本而被锁定在过时的版本上。

方法论的通用性确保了这些收益不局限于特定领域。从硬件仿真到物理模拟，从卡牌游戏到多智能体系统，同样的翻译配方都能应用。这种通用性使得该方法成为强化学习工具箱中的基础工具，而不仅仅是特定问题的解决方案。

代码质量和可维护性虽然是次要考虑，但也值得注意。代码助手生成的代码通过了所有验证测试，但在可读性方面表现不一。研究团队没有手工编辑任何生成后的代码，这确保了方法的完全自动化。虽然长期可维护性仍然是开放问题，但测试套件提供了安全网，当参考更新时重新翻译的低成本使得这种担忧相对较小。

九、技术细节的精彩展现

深入了解具体的技术实现细节，我们可以看到这项研究在工程层面的精妙之处。每个环境的翻译都面临独特的技术挑战，解决方案展现了代码助手处理复杂系统的能力。

PokeJAX的架构变革最为引人注目。原始的Pokemon Showdown采用服务器-客户端架构，专为人类在线对战设计。翻译过程需要三个根本性改变：服务器客户端扁平化为状态pytree上的纯函数、固定大小状态表示、通过jax.lax.switch的分支并行效果分发。完整的55,629行翻译跨越10个模块组，涵盖2,834个物种和1,370个招式。这些招式函数通过lax.switch分发产生大型XLA HLO图，反映在45秒的JIT时间中。每一步都要支付所有1,370个招式计算的成本，无论使用哪个招式，这是无分支GPU执行的已知开销。

HalfCheetah的物理翻译展示了代码助手处理复杂数学的能力。这个环境需要9个自由度、7个刚体和6个执行器的关节体动力学，还要考虑地面接触。代码助手成功翻译了前向运动学、复合刚体算法用于质量矩阵、分析RNEA用于偏置力、接触雅可比矩阵，全部作为纯JAX实现。最终的翻译使用与MJX相同的牛顿接触求解器公式：加速度空间QP与Cholesky分解、关节限制约束、隐式欧拉积分。在匹配批量大小下与Google手工优化引擎的吞吐量平衡证明了代码助手生成的特定环境代码能够匹配通用专业引擎的性能。

EmuRust的架构优势体现在线程模型的改进上。PyBoy使用Python多进程（每个实例一个进程），在32个核心上达到饱和，但EmuRust通过Rayon的工作窃取线程池在单个进程中打包128个环境，通过协作调度和零IPC开销在相同32个核心上实现更高的每核利用率。这种设计展示了即使在已经优化的基线上也能找到改进空间。

TCG的规范到实现翻译展现了端到端的翻译能力。研究团队从官方网站提取规则，构建Python参考实现，然后翻译到JAX。整个翻译成本4.98美元，涵盖11个模块。Python参考实现是私有的，确保代码助手无法依赖预训练数据记忆，必须真正理解和翻译逻辑。这种污染控制对于验证代码助手的真实翻译能力非常重要。

验证测试的生成也展现了代码助手的全面能力。PokeJAX的2,783个测试、HalfCheetah的69个测试、EmuRust的52个测试都是自动生成的。这些测试覆盖了从单个函数验证到完整系统集成的各个层面，测试覆盖率从60%到98%不等。代码助手不仅能够翻译主要逻辑，还能理解如何验证翻译的正确性。

说到底，这项研究证明了一个重要观点：随着代码助手能力的提升和使用成本的降低，许多传统上需要专业技能和大量时间的软件工程任务正在变得自动化和民主化。强化学习环境优化只是一个开始，这种方法论可能会扩展到软件开发的其他领域。

对于普通研究者来说，这意味着他们可以把更多精力投入到真正重要的科学问题上，而不是被技术实现细节所困扰。这种能力的民主化可能会加速整个强化学习领域的发展，让更多有创新想法但缺乏专业优化技能的研究者能够参与到前沿研究中来。同时，这也提醒我们，人工智能不仅在解决科学问题，也在改变科学研究的方式本身。随着这类工具的普及，我们可能会看到强化学习应用的爆发式增长，从游戏AI到机器人控制，从药物发现到金融交易，各个领域都可能受益于这种高效、低成本的环境优化能力。

Q&A

Q1：强化学习环境优化为什么这么重要？

A：在强化学习训练中，环境模拟通常占用50%-90%的时间，就像学生想练习解题但每次都要等很久才能看到答案一样效率低下。优化后的环境能将这个比例降到4%以下，让GPU资源真正用于模型学习而不是等待环境计算，使原本需要4天的训练在15分钟内完成。

Q2：普林斯顿大学的自动翻译方法有什么特别之处？

A：这套方法最大的突破是成本控制，整个翻译过程花费不到10美元，而传统方式需要专业工程师数月时间和数万美元成本。它采用分层验证系统，通过四个递进的验证级别确保翻译正确性，并且适用于从游戏模拟到物理仿真的各种环境类型。

Q3：这项技术能实现多大的性能提升？

A：性能提升范围从1.5倍到22,320倍不等。Pokemon对战系统实现了23,810倍的速度提升，从每秒681步提升到每秒1520万步。即使是已经优化过的系统也能进一步改进，比如物理仿真环境达到了与Google手工优化引擎相当的性能水平。

未经允许不得转载：>决一雌雄网»普林斯顿大学新方法：不到10美元就能让强化学习训练提速万倍