
本文来自加利福尼亚大学圣克鲁斯分校(UCSC),苹果(Apple)和加利福尼亚大学伯克利分校(UCB)之间的合作伙伴关系。第一个是刘亚奎(Liu Yanqing),毕业于郑扬大学,目前是UCSC医生学习。他的研究指示包括了解多模式,视觉语言的预训练和主要视觉模型。其余的包括Li Xianhang(UCSC),Zhang Litian(USCS),Wang Zirui(Apple),Zheng Zeyu(UCB)和Zhou Yodi(UCSC)。与该集合相对应的是UCSC的Xie Cang教授。在大型多模型的快速演变中,视觉模块一直是支持整个系统的主要基础。长期以来,图形图形剪辑研究几乎是视觉预训练的默认想法。从OpenAi夹到Google,再到一系列开放资源,该行业通常认为,如果您想获得强大的视觉编码器,则应依靠比较继续学习。最近,来自加利福尼亚大学,圣克鲁斯分校,苹果大学和加利福尼亚大学伯克利分校的研究人员提出了OpenVision 2,这是极简主义生成性视觉前运动的新方向。在保持最佳性能的同时,此任务可大大提高培训效率,并在轮廓形成下实现10亿参数量表的训练。标题✍️纸:OpenVision 2:多模式学习论文的一系列生成预审预周化的视觉编码者地址:ARXIV:2509.01644项目主页https:///ucsc-vlaa.github.io/openvision2代码和模型:Github·github·github·github·ucsc-vlaa/openv openving模型模型: OpenVisionHugging模型库:HuggingFace Fo OpenVisionHugging OpenVision 2今年早些时候,研究团队在ICCV发布透明的情况下,可以再次看到视觉主链。该项目一次开放了25多个先前训练的模型,参数为5.9 mIllion至6亿多以上,涵盖了不同的斑块大小和解决设置,这已成为学术和工业界生成多模型的重要替代方法。实验表明,OpenVision现在可以竞争甚至超过OpenAI剪辑和Google的剪辑,在Manymultimodal基准测试中,这提供了可靠的替代开放资源。但是,OpenVision培训管道仍然有些复杂。要使用合成描述的全部质量,它引入了两个基于剪辑的设计:比较的双重目的:必须将每个图像与网络标题和稍微合成的标题对齐,从而使文本编码器计算的数量几乎是两倍的培训成本。生成标题预测:该模型还需要在图像条件和原始Alt-Text下产生完整的合成描述,这进一步增加了解码器的计算开销。这些设计提高表征质量,但会使训练过程更加压力,计算更具成本效益,并且在较大尺度上扩展时会产生显着限制。极简主义的想法:OpenVision 2中的生成性开放式2,研究人员进行了勇敢的缓解:直接删除文本编码器和对比度研究,仅保留目标生成“图像→描述”。结果绘图仅包含两个模块:图像编码器 +文本解码器。没有对比研究的两塔结构没有其他文本塔顶取决于高质量的合成描述,因为除此之外,唯一的施用信号,OpenVision 2还引入了一个主要技巧:在预训练阶段中随机投掷约2/3的视觉令牌,并且仅对1/3代币进行完整描述。一方面,它大大减轻了Teksto解码器的计算负担,并显着提高了训练效率。另一方面,这种“广泛提示”迫使该模型在有限条件下恢复完整的标题,从而提高了代表性的抽象能力。这种“触发不仅仅是更少”的想法使OpenVision 2在保持绩效的同时达到更高的效率,还确认了“更少的IS”的概念。实验表明,这种简化的设计不仅削弱了模型的能力,而且均出于效率和可伸缩性的性能:性能:在主要的多模式基准中,例如TextVQA,ChartVQA,ChartQA,OCR和MME,OpenVision 2与OpenVision 2几乎相同,在某些罚款分级活动中甚至可以更好地表现。同时,与OpenAi-CLIP,Laion-CLIP和MetaClip(OpenVision系列)的基本模型相比,OpenVision系列的尺寸更大,尤其是在与OCR相关的活动中。效率:训练时间减少了1.5-2次,记忆使用量减少了大约一半,并且卡批量的尺寸从2K延长到8K;为eXample,它从大约83小时到57小时,再到VIT-L/14,从Sovit-400m减少到241小时到121小时。这些改进成功地将模型扩展到了大纲开发下的十亿个参数量表,并保持良好的培训,这也为进一步探索大规模生成视觉预训练奠定了基础。为什么这么有效?研究人员总结到流程:发展的任务与大型多模型模型(例如Llava)一致,这减少了预训练和下游活动之间的“目标错位”。高质量综合描述:使用recap-datocomp-1b v2,字幕生成结合了图像和原始文本,使描述更详细和语义,为预训练提供了更可靠的管理信号。视觉令牌随机掩码(更少):只有某些视觉令牌仍留下来,这不仅降低了计算计算的开销,而且还降低了全部OWS在“不完整信息”的条件下学习采用关键特征的模型,从而改善整体一般和稳定性。在社区OpenVision 2中,这意味着什么表明了一个珍贵的事实:不必需要进行学习的比较。通过生成和简单的框架,功能强大的视觉编码器也可以训练,并为效率和可扩展性带来重大好处。这项研究不仅挑战了对比研究的长期主导范式,而且还为基本多模型的未来发展提供了一个新的方向。正如作者强调的那样,“方式简单”设计的概念显示了将来生成视觉预训练的潜力。从OpenVision到OpenVision 2,研究团队开设了25种各种规模和调整的模型,并完全披露了培训代码和数据管道,提供可以为学术和行业开发并衡量资源的资源,以及Expasies Explor The Explor社区朝着发展愿景的方向。研究团队长期以来一直接受学术和行业的学生和朋友进行互动,交流和合作。
特别声明:上面的内容(包括照片或视频(如果有))已由“ NetEase”自助媒体平台的用户上传和发布。该平台仅提供信息存储服务。
注意:上面的内容(包括照片和视频(如果有))已由NetEase Hao用户上传和发布,该用户是社交媒体平台,仅提供信息存储服务。