分类 基础模型 下的文章

NeRF是一个有前景的场景表示方法,可根据观测图片实现高质量的3D重建和新视角合成。然而,编辑NeRF表示的场景有很大的挑战,尤其是选择性的编辑特定场景和对象。为了解决该问题,DFFs作者们把2D图片特征抽取器的知识蒸馏到3D特征场,且同时优化辐射场。

- 阅读剩余部分 -

感知模型的网络架构往往受限于特定模型,例如:卷积神经网络只能处理2D图片视觉信息。然而,现实世界往往需要处理多种模态,而只是把每个模型的特征concat到一起是不合理的。Perceiver是一个可以处理不同模态的网络架构,且该架构不具有特定的推断偏差,网络架构可见图1所示。同时,为了引入模态中的时空信息,利用Fourier特征增加位置信息。

- 阅读剩余部分 -

学习一个任务的困难程度显著的受到数据表示方式的影响。根据相关文献,可知,数据生成因子的一个disentangled representation可适用于大量的任务与领域。其中,disentangled representation被定义为单个隐式单元对单个生成因子的变化较敏感,且对其它因子的变化保持相对不变。

- 阅读剩余部分 -

大语言模型正在渗透人类生活各种方面,不仅影响人类的交流与工作,而且重塑每日娱乐生活方面。然而,LLMs运行在云环境中,需要大量的计算资源,这不仅导致大语言模型无法部署在移动设备上,而且对能量消耗与碳排放带来了巨大挑战。根据该观察,MobileLLM是一个小于1B参数量的模型,可部署在移动设备上,且与同规模的模型相比性能得到了提升,可见图1所示。

- 阅读剩余部分 -