归档
- 03月 2025 (4)
- 23: RL的正则化
- 19: 分布式RL:方法
- 09: GANs的演进与训练技巧
- 02: RL扩展:网络架构
- 02月 2025 (3)
- 17: 分布式RL:训练框架
- 15: RL扩展:扩展性理论
- 09: RL算法不适用于持续型任务的技术点及应对方法
- 01月 2025 (1)
- 01: 新视角理解大语言模型
- 12月 2024 (7)
- 28: 空间认知
- 16: 玻尔兹曼分布与基于能量的模型
- 16: Sim-to-Real技术总结(二)
- 15: 如何从数据中估计出泛化性较强的奖励函数?
- 12: 奖励中心化可大幅降低智能体样本复杂度
- 01: 求导法则与矩阵微分
- 01: 范数
- 11月 2024 (4)
- 10月 2024 (6)
- 09月 2024 (10)
- 30: 可提升GANs的训练方法
- 29: Notes on "An Observation on Generalization"
- 28: 通过最大编码率缩减原则学习多样化和有区别的表征
- 22: 基于稀疏率缩减的白盒Transformer (一)
- 16: AlphaGo技术细节
- 15: 在物理世界构建可快速响应智能体的方法
- 14: 深度持续学习的可塑性损失
- 14: 理解神经网络的可塑性
- 06: FreeU:扩散U-Net的免费午餐
- 01: Mamba:具有选择性状态空间的线性时间序列模型
- 08月 2024 (8)
- 29: 浅谈状态空间模型SSM基础理论
- 26: AI与效率
- 26: AI与计算
- 25: 生成式建模的流匹配
- 24: RBO:鲁棒的黑盒优化算法
- 18: SNR PUN:为了RL的泛化性而正则化参数不确定性
- 17: 基于压缩架构的结构化演化以实现可扩展策略优化
- 11: 演化策略作为强化学习的一种可扩展替代方案
- 07月 2024 (8)
- 06月 2024 (8)
- 05月 2024 (3)
- 27: 论深度学习的信息瓶颈理论
- 21: Beta-VAE:利用一个受约束的变分框架学习基本的视觉概念
- 16: 神经网络的有趣特性
- 04月 2024 (25)
- 28: 一文看懂基础模型在机器人领域的应用与机器人的基础模型的研究进展
- 26: ExBody:富有表达力的WBC
- 23: FLD:结构化运动表示与学习的傅利叶隐式动力学
- 21: MobileLLM:优化小于1B参数的大语言模型
- 20: ALOHA2:一个增强的双臂操作低成本硬件
- 20: 基于ACT算法与ALOHA实现精细的双臂操作任务
- 15: FlashAttention-2:利用有效并行化与分片机制实现高效注意力
- 14: FlashAttention:快速且高效的精确注意力计算
- 13: Alpaca:一个强的指令跟随模型
- 13: Vicuna:一个开源的chabot拥有ChatGPT90%的能力
- 12: VRB:从人类视频中获得Affordances作为机器人的多用途表示
- 11: SayCan:机器人Affordances中的基础语言模型
- 10: VoxPoser:利用大语言模型为机器人操作创建可组合的3D价值地图
- 09: FoundationPose:统一新对象的6D位姿估计与追踪
- 08: 机器人中的基础模型:应用、挑战、以及未来
- 06: GQA:从多头checkpoints中训练通用多查询Transformer模型
- 06: AdamW:解耦合的权重衰减正则化
- 04: RMSNorm:均方根层标准化
- 04: Swish:搜索激活函数
- 03: GELU:高斯误差线性单元
- 03: GLU变体可提升Transformer
- 03: BPE:字节对编码
- 02: QLoRA:量化大语言模型的高效微调
- 01: RoFormer:旋转位置编码增强Transformer
- 01: CPVT:ViT的条件位置编码
- 03月 2024 (16)
- 29: 实时辐射场渲染的3D高斯喷溅
- 24: SAM:分割任何事物
- 23: Diffuser:敏捷行为合成的扩散规划器
- 21: LL3DA:Omini-3D理解-推理-规划的视觉交互指令微调
- 20: DP3:3D扩散策略
- 19: F3RM:在复杂3D环境中实现Robot操作的方法
- 16: LLaMA2:开源的Chat模型
- 15: LLaMA:开放且高效的基础语言模型
- 13: MobileVLM V2:视觉语言模型进阶
- 11: MobileVLM:移动设备的视觉语言助手
- 10: MAE:掩码自编码是可扩展的视觉学习器
- 09: PaLI-X:多语言的视觉-语言模型扩展
- 08: PaLM-E:一个Embodied多模态语言模型
- 07: BLIP-2:基于视觉编码器和大语言模型的语言-视觉预训练
- 05: Flamingo:少样本学习的视觉语言模型
- 04: 大语言模型的低秩适应技术LoRA的原理
- 02月 2024 (33)
- 29: 基于GPT-4的指令微调
- 29: 符号微调增强语言模型的上下文学习
- 28: LLaVA:视觉指令微调
- 27: VIMA:多模态提示的通用机器人操纵
- 26: RoboFlamingo:视觉语言基础模型作为高效的机器人模仿者
- 25: EfficientNet:重新思考CNN网络的扩展
- 24: 概述多模态大语言模型的演进
- 23: VAE:自动编码变分贝叶斯
- 22: 基于非参数实例判别的无监督特征学习
- 20: CMC:对比多视角编码
- 18: SimCLR:一个简单的视觉表示对比学习框架
- 17: 漫谈YOLO系列算法的演进四
- 17: 从离线演示数据中学习的关键点
- 16: IBC:隐式行为克隆
- 15: 漫谈YOLO系列算法的演进三
- 15: BeT:一次克隆K个模式
- 14: 漫谈YOLO系列算法的演进二
- 13: ABS:学习无碰撞高速运动
- 11: GAN:生成式对抗网络
- 09: 漫谈YOLO系列算法的演进一
- 09: GAIL:生成式对抗模仿学习
- 09: 基于不确定估计的方法与REM算法
- 08: BCQ:批次约束的DQN
- 08: 视觉-语言模型CLIP的核心技术点
- 07: Score-SDE:基于随机微分方程的分数估计扩散模型
- 07: SGMs:基于分数的生成模型
- 07: DDPM:去噪扩散概率模型
- 06: 深度强化学习的首要偏见
- 05: ACER:基于经验回放的样本高效的Actor-Critic算法
- 04: 基于RL的快速运动
- 03: 分布式同步SGD与异步SGD
- 02: MCAC:稀疏奖励环境下Monte-Carol增强的Actor-Critic算法
- 01: RL中基于状态-动作的基线降低方差的幻觉
- 01月 2024 (26)
- 29: 深度策略梯度的实现关键点:PPO与TRPO案例研究
- 29: 在线深度Actor-Critic算法的关键点
- 26: Thinking-While-Moving:深度强化学习与并发控制
- 26: CQL:保守型Q-learning
- 25: FiLM:带有通用条件层的视觉推理
- 24: 扩散策略:通过动作扩散进行的视觉运动策略学习
- 24: 策略迁移与策略优化
- 23: RT2:视觉-语言-动作模型将网络知识迁移到机器人控制
- 22: RT-1:用于真实世界大规模控制的机器人Transformer
- 20: DTC:四足机器人可穿越稀疏奖励环境的深度轨迹追踪控制
- 19: 动力学随机化:四足机器人运动的案例研究
- 18: 特征金字塔网络
- 18: IMPALA:分布式RL框架
- 17: 面对未知:学习一个具有线上系统识别的通用策略
- 17: Mobile ALOHA
- 16: ViT:视觉编码器
- 16: 机器人模仿动物的方式学习敏捷技能
- 16: Sim2Real技术总结(一)
- 16: 视觉信息增强的足式机器人在挑战领域运动
- 15: 足式机器人学习敏捷技能与电机动力学
- 15: 足式机器人的快速电机自适应
- 15: Q-Transformer
- 15: Decision Transformer
- 15: SDQN:连续性动作的离散化序列预测
- 15: R-CNN系列算法的演进
- 15: one-shot模仿学习