Diffuser:敏捷行为合成的扩散规划器
基于模型的RL算法往往需要先估计一个环境模型,然后再基于该模型进行轨迹优化。然而,现实任务估计出准确的环境模型很难,且可能不适合轨迹优化。若把规划或轨迹优化等同于采样问题,即直接生成轨迹,那么可规避掉模型不准确的问题。
基于模型的RL算法往往需要先估计一个环境模型,然后再基于该模型进行轨迹优化。然而,现实任务估计出准确的环境模型很难,且可能不适合轨迹优化。若把规划或轨迹优化等同于采样问题,即直接生成轨迹,那么可规避掉模型不准确的问题。
一个仓库机器人从杂乱的储物箱中分拣物品从而完成订单任务,这不仅仅需要拥有视觉和语言的语义理解能力从而识别正确的物品,也需要理解物品的几何形状的能力从而稳定的抓取物品。F3RM作者以机器人能够根据少量抓取演示或文本描述从而抓取新物品为研究目标,构建了一个预训练视觉embedding为基础的系统,可见图1所示。
与LLaMA相比,LLaMA2的性能可与闭源ChatGPT、BARDX、以及Claude相比,且模型开源。作者释放了两个版本的模型,分别是:
LLaMA是一系列开源的基础语言模型,模型大小从7B到65B。其中,13B参数的LLaMA性能优越于175B参数的GPT3,65B参数量的LLaMA与Chinchilla-70B和PaLM-540B的模型性能一致。语言模型扩展到足够的尺寸,可拥有少样本泛化的能力。然而,Hoffmann等人表明:在给定计算资源下,最优的性能不是最大的模型实现的,而是小模型在大量数据上训练实现的。经过实验发现,模型的大小与tokens的数量应该同比例的扩展,才能使模型的性能发挥到极致。然而,Hoffmann等人研究没有考虑推理成本,只考虑了训练成本。由此,LLaMA作者们希望能够在各种各样推理预算下能够训练出最优性能的模型。