YOLOv2的backbone架构是Darknet-19,由19个卷积层和5个最大化池化层构成。与YOLOv1相似,在$3\times3$卷积层之间利用$1\times1$卷积层减少参数的数量。除此之外,还使用batch normalization加快模型收敛速度。如表1所示,YOLOv2的网络架构。YOLOv2对每个单元格预测5个有界boxes,可见图1所示。每个boxes对应5个预测值和20个类别概率,可见图2所示。

- 阅读剩余部分 -

ABS是一款四足机器人在杂乱环境中敏捷且高速运动的全新框架。与利用线上系统识别和迁移学习方式实现快速运动的方式不同,该框架有两个策略:敏捷策略以实现执行敏捷电动机技能和恢复策略以保护机器人安全。训练过程包含敏捷策略学习、避碰价值网络、恢复策略学习、以及外部感知表示网络,这些网络在仿真环境中训练完成之后,直接部署到真实机器人上。其中,避碰价值网络主要作用是管理策略的切换。最终,该机器人能够实现高速运动,且可以躲避静态和动态障碍物的能力。

- 阅读剩余部分 -

生成式对抗网络虽然概念上直接,但是其背后的理论值得深究。简单来说,GAN定义了两个网络,分别是生成网络$G(z;\theta_g)$和判别网络$D(x;\theta_d)$。生成网络基于先验分布$p_z(z)$生成数据$x$的分布$p_g$。判别网络用于判别样本来自于训练数据$x$而不是$p_g$的概率。

- 阅读剩余部分 -

模仿学习主要有两种形式,分别是行为克隆和逆强化学习。其中,行为克隆把学习一个策略视作关于状态-动作的监督学习问题;逆强化学习是先找到专家策略奖励最大的奖励函数,然后基于奖励函数学习出策略。行为克隆算法虽然简单,但是该类算法很容易受到分布偏移造成的复合误差影响。逆强化学习与之相反,不仅需要计算奖励函数,还需要在内循环中进行强化学习,所以计算成本很高。

- 阅读剩余部分 -

基于不确定性估计的离线强化学习方法允许策略在保守型离线策略与离线策略之间转换。也可以这样理解,若函数近似的不确定性被评估,那么低不确定性区域策略的约束可被松弛。其中,不确定性的估计可以是策略、价值函数、或模型;不确定性估计的可用度量有方差、标准差等。

- 阅读剩余部分 -