EAI猩球

AI与效率

作者: wyli
时间: 2024-08-26
分类: 理论
评论
422 次阅读

文章来源于OpenAI's Blog：AI and efficiency

注：文章直接用Google翻译，可能存在不准确的情况，所以也贴出了英文原文。

- 阅读剩余部分 -

AI与计算

作者: wyli
时间: 2024-08-26
分类: 理论
评论
325 次阅读

文章来源于OpenAI's Blog：AI and compute

注：文章直接用Google翻译，可能存在不准确的情况，所以也贴出了英文原文。

- 阅读剩余部分 -

生成式建模的流匹配

作者: wyli
时间: 2024-08-25
分类: 生成模型,基础模型
3 条评论
830 次阅读

扩散模型的性能虽优越，但是其限制了采样概率路径的空间。同时，扩散模型不仅拥有较长的训练时间，还需要通过蒸馏等方法提高采样效率。与之相比，连续正则化流CNFs能够建模任意的概率路径，但受限于无可扩展的CNF训练算法。为了解决CNFs模型训练的不稳定性，流匹配FM是一个基于回归固定条件概率路径向量场的Simulation-Free训练方法，为CNFs模型训练提供了等效梯度。该方法不仅拥有较好的样本质量，且训练与推理效率得到了很大的提升。

- 阅读剩余部分 -

RBO：鲁棒的黑盒优化算法

作者: wyli
时间: 2024-08-24
分类: 演化学习
评论
350 次阅读

在利用结构化随机正交矩阵对演化策略的梯度进行高效近似之后，Krzysztof等人提出RBO，该方法利用鲁棒的回归方法学习梯度流方式使黑盒优化算法拥有off-policy更新的能力。

- 阅读剩余部分 -

SNR PUN：为了RL的泛化性而正则化参数不确定性

作者: wyli
时间: 2024-08-18
分类: 强化学习
评论
386 次阅读

为了使RL智能体能够部署到真实世界环境，必须要能够泛化到未观察到的环境。然而，RL很困难实现分布外的泛化，这是由于智能体往往过拟合于训练环境的细节。虽然监督学习的正则化技术可以被用于避免过拟合，但是RL与监督学习之间的差别限制了它们的应用。为了处理泛化性问题，SNR PUN作者们提出了信噪比正则化参数不确定性网络。

- 阅读剩余部分 -

基于压缩架构的结构化演化以实现可扩展策略优化

作者: wyli
时间: 2024-08-17
分类: 演化学习
1 条评论
281 次阅读

经典的演化算法很难解决高纬问题。然而，Salimans等人的研究表明黑盒优化算法在机器人控制任务可展现与RL相媲美的性能。同时，演化策略拥有相对简单性、通用性、以及并行化的特点，因此对它的研究又产生了兴趣。Krzysztof等人利用结构化随机正交矩阵进行梯度近似，从而学习出了一个可快速训练和快速推理的策略。

- 阅读剩余部分 -

AI与效率

AI与计算

生成式建模的流匹配

RBO：鲁棒的黑盒优化算法

SNR PUN：为了RL的泛化性而正则化参数不确定性

基于压缩架构的结构化演化以实现可扩展策略优化

最新文章

标签云 (Top20)

分类