从运动追踪任务洞悉基础学习系统的构建

一个学习系统由四大核心模块构成，分别是数据、学习算法、学习目标以及训练方法。其中，学习算法由网络架构和算法构成；学习目标可通过损失函数构建，或者RL中训练环境中奖励函数构建。

无论是有监督学习，还是强化学习，数据均是非常重要的，数据的质量是学习出期望效果的基础。若数据质量不好，即使再强的学习算法，也无法学习出期望的目标。同时，数据质量不好，那么将会极大的增加算法设计成本，最终极大提高时间成本。
在数据拥有较好质量的基础上，网络架构才能具有提高性能的可能性。网络架构提升性能，主要来源于其表达能力，以及隐式归纳偏差。

对于一个基础学习系统来说，算法通常属于确定性的选择，例如：RL领域PPO，模仿学习领域扩散模型等。那么，需要设计和优化的是算法的输入和输出。对于基础学习系统中，输出通常是不需要考虑优化和设计的。然而，输入先要满足精度足够高，再考虑输入与输出之间的相关性，相关性一般是直觉判断。输入量过多，未必拥有更好的性能，例如：人形机器人领域运动追踪只考虑关键点的信息，这是因为数据不完美，即只考虑了运动学，而实际机器需要考虑运动学、动力学、以及物理。

学习目标的构建，属于非常成熟的部分，只有RL中奖励设计需要不断的调节奖励权重或奖励函数，但其奖励函数通常为学术界和工业界的主流方案。在机器人领域，尤其需要注意奖励计算的物理意义一致性。同时，主流方案不意味着绝对答案，需要根据其它方案和实践经验进行增删。

然而，即使数据是基础，也并不意味着只有数据满足了运动学、动力学、以及物理之后，才能构建一个学习系统。这是因为物理AI的数据收集成本太高，此时思路应该变为：如何在数据不完美的条件下构建一个可学习系统？

在数据质量可行、学习目标和学习算法基本确定之后，就需要确定训练方法。在强化学习中，训练方法通常不是PPO的超参数，而是环境设计，主要体现在环境的reset方法和终止条件。对于部分观测，学习难度大的问题，可能会采用teacher-student范式。有的时候，训练方法还需要考虑算力分配，例如：大规模运动追踪中要考虑把更多的算力及时的分配到运动难的任务上。
在真实学习系统构建过程中，由于数据不完美的存在，导致需要不断调整算法的输入和学习目标，甚至训练方法。有的时候，还需要反过来对数据进行一定的处理，例如：过滤掉部分数据。

然而，对于数据扩展的学习系统，一直过滤数据也不是解决问题的方法，那么需要算法设计和数据处理同时进行，要提高算法对数据的容纳度。这种容纳度的提升，主要是不断减少学习目标，从而使策略收敛。对于RL来说，学习目标是通过奖励函数间接定义的，减少学习目标就意味着减少奖励函数。

总的来说，正因为数据的不完美，所以数据才被称为参考数据，也是利用强化学习的核心原因之一。对于基础强化学习系统来说，可设计的部分只有输入观测、奖励函数、以及环境定义的训练方法。由于网络架构和算法的确定性高，那么应当先找到那个最小系统，其基础上才能增加fancy的技术。

最后，为了提高迭代的效率，应该先构建一个benchmark，才能准确的知晓模型性能，例如：基于强化学习的机器人学习系统，应当首先构建sim2sim测试和追踪精度度量指标。

注：笔者水平有限，望批评指正。

从运动追踪任务洞悉基础学习系统的构建

引用方法

添加新评论

最新文章

标签云 (Top20)

分类