EAI猩球

Sharing knowledge, Acquiring technology.

首页 归档 链接 关于

分类 基于值 下的文章

SDQN:连续性动作的离散化序列预测

  • 作者: wyli
  • 时间: 2024-01-15
  • 分类: 基于值,强化学习
  • 427 次阅读
  • 2 条评论

连续空间的控制问题一致很难被有效解决,这是因为动作空间每个维度的离散化会导致动作的组合呈指数级爆炸。

- 阅读剩余部分 -

最新文章

  • 指数族与自然指数族分布
  • Fisher信息度量
  • 率失真
  • 信息瓶颈方法
  • 矩阵范数与Spectral标准化
  • Lipschitz Continuity
  • RL的正则化
  • 分布式RL:方法
  • GANs的演进与训练技巧
  • RL扩展:网络架构

标签云 (Top20)

  • 扩散模型
  • 大规模RL
  • GANs
  • 激活函数
  • Transformers
  • Flows
  • 表示学习
  • 扩散策略
  • VAEs
  • 神经网络特性
  • Attentions
  • ALOHAs
  • RL关键点
  • NN可塑性
  • 微调
  • Bipedals
  • NeRFs
  • LoRAs
  • 对比学习
  • RL样本高效

分类

  • 理论(35)
    • 数学(10)
    • 信息论(3)
    • 认知科学(1)
    • AI理论(18)
  • 基础模型(70)
    • 生成模型(19)
    • 视觉模型(8)
    • White-Box网络(2)
    • 大语言模型(6)
    • 多模态模型(10)
    • VLA模型(7)
  • 演化学习(3)
  • 持续学习(2)
    • 持续RL(1)
  • 强化学习(20)
    • 基于策略(1)
    • 基于值(1)
    • Actor-Critic(5)
  • Offline RL(3)
  • 模仿学习(10)
  • AI系统(3)
  • Robot学习(28)
© 2025 EAI-Star. Powered by Typecho. 备案号: 沪ICP备2023018970号-2