文章详情

2025年3月6日,北京智源人工智能研究院宣布开源多模态向量模型BGE-VL,这一成果标志着多模态检索领域的新突破。BG
2025-04-23 14:27:48
文章详情介绍
2025年3月6日,北京智源人工智能研究院宣布开源多模态向量模型BGE-VL,这一成果标志着多模态检索领域的新突破。BGE-VL模型在图文检索、组合图像检索等多模态检索任务中取得了最佳效果,显著提升了多模态检索的性能。
BGE-VL的开发基于大规模合成数据集MegaPairs,该数据集通过结合多模态表征模型、多模态大模型和大语言模型,从海量图文语料库中高效挖掘多模态三元组数据。这一方法不仅具备优异的可扩展性,能够以极低成本持续生成多样化且高质量的数据,还大幅提升了数据质量。与传统人工标注数据相比,MegaPairs仅需1/70的数据量即可实现更优的训练效果。
在技术实现上,MegaPairs的构造分为两个关键步骤:首先,使用多种相似度模型从图像数据集中挖掘多样的图像对;其次,利用开源的多模态大模型和大语言模型合成开放域检索指令。通过这一方法,MegaPairs无需人工参与,即可扩展性地生成大规模、高质量且多样化的多模态检索指令数据集。此次发布的版本涵盖了2600万条样本,为多模态检索模型的训练提供了丰富的数据支持。
基于MegaPairs数据集,智源BGE团队训练了3款不同尺寸的多模态检索模型,包括BGE-VL-Base、BGE-VL-Large和BGE-VL-MLLM。这些模型在多个任务上展现了远超以往方法的领先性能。在Massive Multimodal Embedding Benchmark(MMEB)的36个多模态嵌入评测任务中,BGE-VL在零样本性能和有监督微调后的性能上均实现了最优表现,证明了其良好的任务泛化能力。
在组合图像检索任务中,BGE-VL在CIRCO评测集上刷新了现有基准,大幅超越了谷歌的MagicLens系列和英伟达的MM-Embed等对比基线。BGE-VL-MLLM较之前的SOTA模型提升了8.1个百分点,而BGE-VL-Base模型以不到1/50的参数量超越了其他大模型底座的多模态检索器。
此外,研究还表明,MegaPairs数据集具有良好的可扩展性和高效性。随着数据规模的增加,BGE-VL模型表现出一致的性能增长趋势。与在37M闭源数据上训练的SOTA模型Google MagicLens相比,MegaPairs仅需1/70的数据规模(0.5M)即可实现显著的性能优势。
项目主页:
https://github.com/VectorSpaceLab/MegaPairs
模型地址:
https://huggingface.co/BAAI/BGE-VL-MLLM-S1
最新星火攻略
更多- 希望OL连击技巧全解析:从基础入门到高阶进阶的深度分享
- 天国拯救2长剑连招技巧分享与心得解析,助你掌握更高效的战斗连招方式
- 特朗普发布“加沙度假胜地”AI视频,制作者表示这是对当前政治形势的讽刺作品
- 深入解析DNF刺客职业特点与技能运用,全面剖析刺客在游戏中的表现与策略
- 在想不想修真仙书坊第一层购买书籍时,有哪些推荐的好书值得一看呢?
- Manus就邀请码被炒至5万元一事作回应: 从未进行推广活动,呼吁大家理智参与投资
- 洛克王国毛懒懒获取方法与捕捉技巧详解,助你轻松抓到毛懒懒
- 如何在凡人传说中有效提升角色属性和战斗能力的方法与技巧
- Manus创始人肖弘:90后AI领域新秀相比前辈梁文峰更显年轻与活力
- 古剑奇谭OL游戏体验评测:在仙侠世界中寻觅深度与魅力的精彩冒险
- 江湖风云令的触发条件与步骤详解:揭示如何在江湖中生存与冒险
- 谷歌推出Whisk Animate预览版:轻松将图片转换为 8 秒精彩动画短片
- LOL凯哥:在召唤师峡谷里挥洒策略与幽默的双重天才
- 修真玩家必备:本命法宝选择的全面指南与策略分析
- 九阴真经的完整版本及其详细解析,让你深入了解古代武侠经典的智慧与奥秘
最新星火智能
更多- “星际迷航”中的未来科技成为现实!AI超声技术赢得百万美元大奖,心脏健康的定义将被彻底颠覆!
- 遇到想不想修真版本更新失败的情况该如何应对和解决问题呢?
- 一夜引爆网络!AI新产品Manus团队的公司名竟是蝴蝶效应
- 恋爱助力器 漫画全集 探索恋爱秘籍之奇妙旅程与情感成长之路
- 逍遥九重天遗迹挑战全攻略:试炼玩法详解与技巧分享
- 全球首款5G-A人形机器人“夸父”在MWC盛大亮相,获国王亲自点赞称赞
- 万智牌旅法师对决2012 深入解析与游戏策略探讨
- 抖音集团计划寻找注册资本不少于百万的AI数据标注供应商以提升其智能服务能力
- 月圆之夜中二次打击卡牌的具体效果和实用性分析
- qq农场金币全面解析 QQ农场金币的获取、使用技巧与发展策略详解
- “AI安全承诺骤减?Anthropic悄然结束与拜登政府的合作,科技巨头态度急转弯?”
- 江湖经济型无中拳为何展现出强大的实力,深度解析其背后的原因
- 大唐无双礼包 <h3>大唐无双礼包深度解析</h3>
- 璃月的统领李慕婉最终选择了谁成为伴侣
- 文本到语音转换系统Spark-TTS:实现零样本语音克隆与精细化控制功能