EAI猩球

Sharing knowledge, Acquiring technology.

首页 归档 链接 关于

分类 基于值 下的文章

SDQN:连续性动作的离散化序列预测

  • 作者: wyli
  • 时间: 2024-01-15
  • 分类: 强化学习,基于值
  • 878 次阅读
  • 2 条评论

连续空间的控制问题一致很难被有效解决,这是因为动作空间每个维度的离散化会导致动作的组合呈指数级爆炸。

- 阅读剩余部分 -

最新文章

  • 局部坐标系下相对位置的计算方法辨析
  • Stiefel Manifolds及其对MOORE网络的约束
  • 从Neural ODE到连续Normalizing Flows
  • 从信息论和矩阵计算的角度理解神经网络
  • 扩散模型的可控生成与引导
  • 扩散模型解决RL问题(一)
  • 生成式AI与RL相遇
  • BFMs:行为基础模型的SF与FB表示
  • 世界模型是什么?
  • EvoRL(二):EPO算法

标签云 (Top20)

  • 扩散模型
  • 大规模RL
  • GANs
  • Flows
  • 激活函数
  • Transformers
  • 生成式AI与RL
  • 表示学习
  • VAEs
  • 神经网络特性
  • Attentions
  • ALOHAs
  • RL关键点
  • NN可塑性
  • 微调
  • 扩散策略
  • Bipedals
  • NeRFs
  • LoRAs
  • 对比学习

分类

  • 理论$(39)$
  • 基础模型$(76)$
  • 演化学习$(3)$
  • Continual学习$(2)$
  • 强化学习$(28)$
  • Offline RL$(3)$
  • 模仿学习$(10)$
  • AI系统$(3)$
  • Robot学习$(27)$
© 2026 EAI-Star. Powered by Typecho. 备案号: 沪ICP备2023018970号