wyli 发布的文章

Consistency Policy：通过一致性蒸馏加速视觉运动策略

作者: wyli
时间: 2024-07-04
分类: 模仿学习,Robot学习
1246 次阅读
评论

由于空间、重量、以及电量的约束，大部分机器人系统无法配备高端GPUs。扩散策略在机器人控制的模仿学习领域实现了惊人的性能。然而，扩散策略的推理速度较慢，需要多步迭代才能生成动作。这种推理速度慢的约束限制了扩散策略的应用范围。为了保留扩散策略的性能且减少推理时间，Consistency Policy作者们通过对扩散策略的蒸馏，得到了一致性策略。

- 阅读剩余部分 -

在Actor-Critic方法中处理函数近似误差

作者: wyli
时间: 2024-06-27
分类: Actor-Critic,强化学习
828 次阅读
3 条评论

在DQN中，噪音引起的函数近似误差，从而导致价值估计的高估和只能学习到次优策略。TD3作者们，表明，高估偏差和时序差分的累积误差也存在于actor-critic范式。在离散动作场景中，Double DQN通过动作选择与动作价值估计的解耦合，从而降低Q函数高估的风险。然而，在actor-critic场景下，由于策略的缓慢更新，当前和目标价值估计太相似，以至于无法避免最大化偏差。因此，作者们独立训练了两个critics。同时，为了处理因独立训练两个critics，引起方差过大而导致高估的问题，提出了clipped Double Q-learning。

- 阅读剩余部分 -

SAC：Off-Policy最大化熵深度强化学习

作者: wyli
时间: 2024-06-26
分类: Actor-Critic,强化学习
1098 次阅读
2 条评论

对于Actor-Critic算法，主要是on-policy，因此样本效率较低。同时，off-policy与深度神经网络结合往往会导致训练的不稳定。根据soft Q-learning，可知，最大化熵能够提升RL的探索和鲁棒性，即最大化熵策略能够对模型的误差和估计误差更具有鲁棒性，且通过获取多样的行为提升探索。SAC作者们设计了一个off-policy的最大化熵actor-critic算法，拥有样本高效学习和稳定训练的特性，可用于连续状态和动作空间。

- 阅读剩余部分 -

Consistency Models：一致性模型

作者: wyli
时间: 2024-06-20
分类: 生成模型,基础模型
2454 次阅读
3 条评论

扩散模型显著地提升了图片、音频、视频生成领域，这种模型依赖迭代的采样过程，从而导致生成速度很慢。为了解决生成慢的问题，一致性模型被提出。这种模型的核心思想是从相同轨迹上任何一点开始采样，最终的输出为一致的，可见图1所示。一致性模型有两种训练方式，分别是蒸馏预训练扩散模型和生成模型的直接训练。通过实验表明这两种方式在one-step和few-step生成上均实现了新SOTA的结果，即一致性模型不仅能够执行单步采样，且拥有迭代性采样的优势。

- 阅读剩余部分 -

DFF：通过特征场蒸馏分解NeRF用于编辑

作者: wyli
时间: 2024-06-16
分类: 基础模型,视觉模型
1084 次阅读
评论

NeRF是一个有前景的场景表示方法，可根据观测图片实现高质量的3D重建和新视角合成。然而，编辑NeRF表示的场景有很大的挑战，尤其是选择性的编辑特定场景和对象。为了解决该问题，DFFs作者们把2D图片特征抽取器的知识蒸馏到3D特征场，且同时优化辐射场。

- 阅读剩余部分 -

The Bitter Lesson

作者: wyli
时间: 2024-06-13
分类: 理论,AI理论
710 次阅读
评论

Rich Sutton
March 13, 2019

The biggest lesson that can be read from 70 years of AI research is that general methods that leverage computation are ultimately the most effective, and by a large margin. The ultimate reason for this is Moore's law, or rather its generalization of continued exponentially falling cost per unit of computation. Most AI research has been conducted as if the computation available to the agent were constant (in which case leveraging human knowledge would be one of the only ways to improve performance) but, over a slightly longer time than a typical research project, massively more computation inevitably becomes available.

- 阅读剩余部分 -