RL扩展:网络架构
若要实现RL在参数量上的扩展,那么需要设计一个可降低过拟合风险的网络架构。这种网络架构通常引入了简单性偏差的元件,从而学习出泛化性较强的模型。
若要实现RL在参数量上的扩展,那么需要设计一个可降低过拟合风险的网络架构。这种网络架构通常引入了简单性偏差的元件,从而学习出泛化性较强的模型。
面对复杂任务时,RL算法需要与环境交互生成大量的数据用于学习,才能实现期望的性能。对于大量数据需求的挑战,有两种应对方法,分别是分布式训练和提升样本效率。其中,分布式训练是指智能体与数千个仿真环境交互以生成训练数据;样本效率提升的主要目的是提高利用有限数据的能力。
对于神经网络,扩展性主要指随着数据量或计算量的增加,模型的性能变化情况。研究神经网络扩展性的目的是:期望通过小规模实验预测大规模实验的模型性能,从而降低大规模实验的成本。同样的,论文《Value-Based Deep RL Scales Predictably》研究了基于价值RL的扩展性和性能可预测性。
时下,RL主要处理episode任务或单一episode的持续任务,论文《Discounted Reinforcement Learning Is Not an Optimization Problem》分析了该范式的技术有哪些不适用于显著不同episode的持续任务的呢?
谈到大语言模型,通常想到的是预训练、有监督微调、RLHF
、以及思维链提升。然而,这些都是站在LLMs
的技术细节理解。与之不同,本文站在基础模型的角度理解大语言模型,也可以理解为站在应用或提升其特定能力的角度。
空间认知在认知科学以及其他相关学科中用于表示对空间内容的思考,例如:环境中物体的位置或物体的形状。鉴于世界本质上是空间的,该术语还涵盖了各种异质心理活动。一个关于空间思维的实用区分是:导航相关认知和以对象为中心的认知。每种认知都需要环境或对象的表征,以及被表征信息的内在变化的表示。导航涉及寻找世界各地的路线以收集食物和饮料、寻找社交伙伴、避开危险并返回家园,这是所有移动生物生存的先决条件。为了找到路,需要环境特征(非自我中心的框架: allocentric framework)和自我运动(惯性导航: inertial navigation)相对位置的表示。以对象为中心的认知涉及表征物体的形状和结构,并预测它们在物理或心理转变(例如旋转、切割或折叠)后的外观。以对象为中心的思维与工具的发明和使用密切相关,并且可能比导航更专属于人类的认知活动,尽管在灵长类动物和鸦科动物中也有使用工具的记录。