分类 基础模型 下的文章
NeRF:利用神经辐射场作为场景表示用于视角合成
NeRF是一个利用全连接深度网络优化潜在连续体积场景函数的方法合成新视角的方法。该方法有两个步骤,分别是场景表示和体积渲染,可见图1所示。
通用感知模块Perceiver与Fourier特征
感知模型的网络架构往往受限于特定模型,例如:卷积神经网络只能处理2D图片视觉信息。然而,现实世界往往需要处理多种模态,而只是把每个模型的特征concat到一起是不合理的。Perceiver是一个可以处理不同模态的网络架构,且该架构不具有特定的推断偏差,网络架构可见图1所示。同时,为了引入模态中的时空信息,利用Fourier特征增加位置信息。
Beta-VAE:利用一个受约束的变分框架学习基本的视觉概念
学习一个任务的困难程度显著的受到数据表示方式的影响。根据相关文献,可知,数据生成因子的一个disentangled representation可适用于大量的任务与领域。其中,disentangled representation被定义为单个隐式单元对单个生成因子的变化较敏感,且对其它因子的变化保持相对不变。
一文看懂基础模型在机器人领域的应用与机器人的基础模型的研究进展
MobileLLM:优化小于1B参数的大语言模型
大语言模型正在渗透人类生活各种方面,不仅影响人类的交流与工作,而且重塑每日娱乐生活方面。然而,LLMs运行在云环境中,需要大量的计算资源,这不仅导致大语言模型无法部署在移动设备上,而且对能量消耗与碳排放带来了巨大挑战。根据该观察,MobileLLM是一个小于1B参数量的模型,可部署在移动设备上,且与同规模的模型相比性能得到了提升,可见图1所示。