wyli 发布的文章

RL扩展：扩展性理论

作者: wyli
时间: 2025-02-15
分类: 强化学习
299 次阅读
评论

对于神经网络，扩展性主要指随着数据量或计算量的增加，模型的性能变化情况。研究神经网络扩展性的目的是：期望通过小规模实验预测大规模实验的模型性能，从而降低大规模实验的成本。同样的，论文《Value-Based Deep RL Scales Predictably》研究了基于价值RL的扩展性和性能可预测性。

- 阅读剩余部分 -

RL算法不适用于持续型任务的技术点及应对方法

作者: wyli
时间: 2025-02-09
分类: 持续RL,持续学习
287 次阅读
评论

时下，RL主要处理episode任务或单一episode的持续任务，论文《Discounted Reinforcement Learning Is Not an Optimization Problem》分析了该范式的技术有哪些不适用于显著不同episode的持续任务的呢？

- 阅读剩余部分 -

新视角理解大语言模型

作者: wyli
时间: 2025-01-01
分类: 基础模型,大语言模型
375 次阅读
评论

谈到大语言模型，通常想到的是预训练、有监督微调、RLHF、以及思维链提升。然而，这些都是站在LLMs的技术细节理解。与之不同，本文站在基础模型的角度理解大语言模型，也可以理解为站在应用或提升其特定能力的角度。

- 阅读剩余部分 -

空间认知

作者: wyli
时间: 2024-12-28
分类: 理论,认知科学
521 次阅读
评论

空间认知在认知科学以及其他相关学科中用于表示对空间内容的思考，例如：环境中物体的位置或物体的形状。鉴于世界本质上是空间的，该术语还涵盖了各种异质心理活动。一个关于空间思维的实用区分是：导航相关认知和以对象为中心的认知。每种认知都需要环境或对象的表征，以及被表征信息的内在变化的表示。导航涉及寻找世界各地的路线以收集食物和饮料、寻找社交伙伴、避开危险并返回家园，这是所有移动生物生存的先决条件。为了找到路，需要环境特征(非自我中心的框架: allocentric framework)和自我运动(惯性导航: inertial navigation)相对位置的表示。以对象为中心的认知涉及表征物体的形状和结构，并预测它们在物理或心理转变（例如旋转、切割或折叠）后的外观。以对象为中心的思维与工具的发明和使用密切相关，并且可能比导航更专属于人类的认知活动，尽管在灵长类动物和鸦科动物中也有使用工具的记录。

- 阅读剩余部分 -