文章详情

一直专注于让AI看懂世界的 Groundlight 研究团队,近日放大招,宣布开源了一套全新的 AI 框架!这套框架旨在
2025-04-16 07:52:46
文章详情介绍
一直专注于让AI看懂世界的 Groundlight 研究团队,近日放大招,宣布开源了一套全新的 AI 框架!这套框架旨在攻克视觉领域的一大难题——复杂的视觉推理,让AI不仅能“看图识物”,更能像福尔摩斯一样,从图像中推理出更深层次的信息。
我们都知道,现在的AI在识别猫猫狗狗方面已经炉火纯青,但要让它们理解图片背后的逻辑关系,进行更复杂的推理,就常常“卡壳”。 Groundlight 的研究人员指出,当前的视觉语言模型 (VLM) 在理解图像本身尚且不足的情况下,更难以完成需要深度解读的任务。
虽然大型语言模型 (LLM) 在文本推理方面取得了巨大进展,但视觉领域的类似突破仍然有限。现有的 VLM 在需要结合视觉和文本线索进行逻辑推演时常常表现不佳,这凸显了它们能力上的一个关键缺陷。 仅仅识别图像中的物体是远远不够的,理解物体之间的关系和上下文信息才是关键.
强化学习来助力,GRPO 成就“最强大脑”
为了提升VLM的视觉推理能力,Groundlight 的研究团队别出心裁地采用了强化学习方法,并创新性地利用了 GRPO (Gradient Ratio Policy Optimization) 来提高学习效率。
之前的研究,例如 Deepseek 的工作和语言模型的先进推理,很少将这些技术扩展到 VLM 领域。 为了验证他们的方法,研究人员设计了一个需要同时处理视觉和文本信息的密码破译任务。 模型需要使用一个随机生成的解码器图像来解读编码信息,最终,一个仅有30亿参数的模型就达到了 96% 的准确率! 注意力分析表明,模型在解决任务时能够积极地参与视觉输入,专注于相关的解码器区域。
使用 GRPO 训练 VLM 并非一帆风顺,尤其是在分词 (tokenization) 和奖励设计方面。 由于模型通常将文本处理为词元 (tokens) 而非单个字符,因此对于需要精确字符级别推理的任务来说可能会遇到困难。
为了缓解这个问题,研究人员在消息的字母之间添加了空格,以简化解码过程。 奖励设计是另一个至关重要的环节,因为强化学习模型需要结构良好的反馈才能有效地学习。 研究人员使用了三种奖励类型:格式奖励,确保输出的一致性;解码奖励,鼓励对乱码文本进行有意义的转换;以及正确性奖励,提高准确性。 通过仔细平衡这些奖励,研究人员成功避免了模型学习到意外的“捷径”,确保其真正提高了密码破译能力。
GRPO 通过比较多个输出而非依赖直接梯度计算来优化学习过程,这为训练带来了更高的稳定性。 通过为每个查询生成多个响应并相互评估,这种方法实现了更平滑的学习曲线。 这项研究也强调了 VLM 在基于推理的任务中的潜力,但也承认了复杂视觉模型带来的高昂计算成本。
为了解决效率问题,他们提出了选择性模型升级等技术,即仅在模糊不清的情况下才使用更昂贵的模型。 此外,他们还建议集成预训练的物体检测、分割和深度估计模型,以在不显着增加计算开销的情况下增强推理能力。 这种基于工具的方法为训练大型端到端模型提供了一种可扩展的替代方案,强调效率与准确性并重。
Groundlight 团队通过集成强化学习技术,特别是 GRPO,在增强 VLM 方面取得了显著的进展。 他们在一个密码破译任务中测试了他们的方法,模型展现出了令人印象深刻的准确性。
项目:https://github.com/groundlight/r1_vlm
demo:https://huggingface.co/spaces/Groundlight/grpo-vlm-decoder
最新星火攻略
更多- 蜀门手游百花职业适合使用哪些武器最佳选择分析
- Meta积极研发自有AI训练晶片,旨在降低对NVIDIA的依赖程度
- 原神的玩家们如何有效赚取摩拉及相关技巧分享
- 毛绒玩具迎来全新变革!“智能陪伴猫”强势登场:不仅可聊天还能互动,成为你情感的最佳伙伴,开启陪伴新时代!
- 在哪里能够找到和下载JavaScript相关的软件及工具资源,用于开发和学习JavaScript编程
- 调查显示:超过72%的企业在选择AI工具时优先考虑易用性
- 火炬之光1角色加点策略:详解最佳加点方案和实用技巧
- Pruna AI 发布开放源码的 AI 模型优化工具框架,推动高效压缩技术的应用
- 和平精英决赛圈战术攻略,如何在最后时刻争取胜利
- Sider AI全新推出Deep Research功能:自动模仿人类研究方式并生成可视化的交互式报告
- 怪物猎人荒野中乌贼的详细位置与获取攻略全览
- 攻城掠地童关战神副本战斗攻略与玩法解析,助你轻松打败敌人
- Manus官方X账号重新开放 将继续为用户带来精彩的使用示例分享
- 模拟人生4全球明星秘籍大全与角色发展技巧分享
- 谷歌推出新型机器人智能控制模型Gemini Robotics,助力机器人模仿人类思维与行动方式
最新星火智能
更多- 侠盗猎车手5有哪些有效的赚钱方法和技巧,帮助你在游戏中快速致富
- 谁说视频制作只能依赖传统手法?字节的LCT技术让AI如同专业导演般创作震撼电影作品!
- 影之刃3万魔战令的完成方法与实用技巧解析
- 《黑光生存进化》火爆公测进行中,“神庙服”限量测试现已正式启动,玩家们快来参与!
- OpenAI 向美国行政机关递交关于人工智能发展与管理的行动计划建议
- 2022年Intel集成显卡性能天梯图全面解析与详细分析
- 百度携手华为鸿蒙共同推出全新AI搜索合作计划“百看计划”,提升搜索体验与效率
- 造梦西游3花宴详细解析与属性介绍,探秘其独特魅力与游戏效果
- 新赛季平衡调整遭到玩家广泛批评《流放之路2》团队公开承认改动失误
- 理想汽车AI助手升级上线:网页版理想同学接入DeepSeek R1满血版,性能大幅提升
- 详细指导与推荐:如何选用合适的软件来打开和处理AI格式的文件
- DeepSeek R2 即将在3月17日正式发布,有望挑战Claude Sonnet 3.7的市场地位
- 血战上海滩2游戏秘籍大全及横杠输入技巧解析
- vidu与美国著名动画制作公司Aura Productions携手打造首部AI创作的科幻动画系列剧集,引领动画创新潮流
- 目前使用Excel 2007版本的人群还有多少,是否仍然在相关行业中得到应用