从运动追踪任务洞悉基础学习系统的构建
一个学习系统由四大核心模块构成,分别是数据、学习算法、学习目标以及训练方法。其中,学习算法由网络架构和算法构成;学习目标可通过损失函数构建,或者RL中训练环境中奖励函数构建。
一个学习系统由四大核心模块构成,分别是数据、学习算法、学习目标以及训练方法。其中,学习算法由网络架构和算法构成;学习目标可通过损失函数构建,或者RL中训练环境中奖励函数构建。
完全信息的博弈或游戏均有最优的价值函数${v}^{*}(s)$,例如:象棋、围棋、西洋双陆棋、以及拼字游戏,也均可迭代地计算最优价值函数解决。然而,由于游戏的搜索空间差别很大,从而导致解决的难度不同。若利用$b$表示游戏的宽度(每个位置可移动的方向)和$f$表示深度(游戏的长度),那么象棋$b\approx35,d\approx80$与围棋$b\approx250,d\approx150$,对应的搜索空间均为$b^d$。为了降低搜索空间,有两种办法,第一种通过位置评估减少搜索的深度,即把搜索树中状态$s$的子树利用价值函数$v(s)\approx {v}^{*}(s)$替换。这种方法很好的解决了象棋和西洋跳棋问题,但对搜索空间巨大的围棋问题没有得到很好的解决。第二种方法是减少搜索的广度可通过从策略$p(a\vert s)$中采样动作的方式实现,这种方式在西洋双陆棋和拼字游戏中实现了卓越性能,在围棋Go游戏只达到了弱初级选择级别。
第一人称视角的无人机比赛需要专业的飞行队员远程操作高速无人机穿过3D环,可见图1所示。在比赛中,无人机承受的力超过自身重力的5倍多,达到的速度$100km/h$,加速度为重力加速度的许多倍。
在足球比赛的场景下,Humanoid面对的是一个动态的而非开放式的环境,不仅需要机器人能够监测和理解环境的变化,且需要根据情况制定目标并做出实时响应。虽然它面对的复杂性相较于自动驾驶汽车面对的动态且开放环境的复杂性相对较低,但是在足球比赛场景下可很方便的研究Humanoid的EAI(Embodied AI)技术,该技术也可迁移到其它环境,例如:工厂,也是迈向开放环境坚实的一步。同时,足球比赛能够体现出人类运动智能的许多方面。