文章详情

小米技术官方微博宣布,小米大模型团队在音频推理领域取得了显著进展。他们在受到 DeepSeek-R1的启发后,率先将强化
2025-04-25 10:14:57
文章详情介绍
小米技术官方微博宣布,小米大模型团队在音频推理领域取得了显著进展。他们在受到 DeepSeek-R1的启发后,率先将强化学习算法应用于多模态音频理解任务。团队在短短一周内便以64.5% 的 SOTA(State Of The Art)准确率,登顶国际权威的 MMAU 音频理解评测榜,并同步将相关技术开源。
MMAU(Massive Multi-Task Audio Understanding and Reasoning)评测集是一个测试音频推理能力的重要标准,涵盖了一万条语音、环境音和音乐样本,旨在考察模型在多种技能上的表现。人类专家在该评测集上的准确率为82.23%,而目前该榜单上表现最好的模型为 OpenAI 的 GPT-4o,准确率为57.3%,其后是 Google DeepMind 的 Gemini2.0Flash,准确率为55.6%。
在小米团队的研究中,他们最初使用了清华大学发布的 AVQA 数据集进行微调,取得了51.8% 的准确率。但真正的突破是在将 DeepSeek-R1的 Group Relative Policy Optimization(GRPO)算法应用到 Qwen2-Audio-7B 模型后,仅用 AVQA 的3.8万条训练样本就实现了64.5% 的准确率,超越了现有的商业模型。
研究团队发现,当在训练过程中强制模型输出推理过程时,准确率反而下降至61.1%。这表明显式的思维链输出可能不利于模型训练,强化学习的实时反馈机制更有助于模型锁定高质量答案的分布区域。尽管他们已经取得了显著的准确率,但仍然距离人类专家的水平存在差距。
小米大模型团队的实验结果不仅展示了强化学习在音频推理领域的独特优势,也为未来的研究提供了新的思路。他们还将训练代码、模型参数以及技术报告开源,方便学术界和产业界进行进一步的研究和交流。
训练代码:https://github.com/xiaomi-research/r1-aqa
模型参数:https://huggingface.co/mispeech/r1-aqa
技术报告:https://arxiv.org/abs/2503.11197
交互 Demo:https://120.48.108.147:7860/
划重点:
🔍 小米大模型团队通过强化学习算法在音频推理领域取得突破,准确率达到64.5%。
📈 MMAU 评测集是音频推理能力的重要标准,当前人类专家准确率为82.23%。
💡 研究结果表明,强化学习的实时反馈机制对模型训练更为有效,未来研究仍需深入探索。
最新星火攻略
更多- 米姆哈绮绿星火夜活动攻略详解与玩法指南
- 深度探讨公司注册DeepSeekChat商标的重要性及其潜在影响
- 深入探秘仙剑世界:破解碎石像仙灵谜题的全方位攻略与技巧分享
- 腾讯混元3D开源日活动即将来临,探讨3D技术与创新的无限可能!
- 绝区零极钓大师赛详细玩法与丰厚奖励全面解析
- 人工智能技术发展中的版权挑战:在保护创作者权益与满足AI训练需求之间寻找平衡点
- 天龙八部大票解析与研究,深入探讨天龙八部大票的价值与意义
- 独家详细指南:全面解析第一关山岩鼓点挑战任务的解锁与攻略技巧
- 香港人工智能行业蓬勃发展,超过2000个职位亟待招聘人才以满足市场需求
- OpenAI最新动态:CPO预告GPT-5即将发布,预计全年AI代码自动化率将逼近99%!
- DOTA2 7.38版本伐木机多项改动详细分析与解析
- 创新国产Agent开发框架正式推出!仓颉社区发布Cangjie Magic,全面支持鸿蒙及其他平台!
- 深入解析仙剑世界水月宫任务全攻略,助你轻松跃升为游戏高手
- 电脑游戏《Factorio》被赋予新角色:成为评估人工智能能力的独特工具
- 穿越火线游戏运行配置要求详解 适合玩家电脑配置指南
最新星火智能
更多- 探索都市传说解体中心第二话:寻找第一天推文证据的有效方法与技巧
- Deepseek崭露头角挑战行业巨头! a16z最新AI应用Top100榜单公布,17家新兴企业成功跻身前50名!
- 震撼发现!人工智能撰写的研究论文成功通过人类评审专家的审查,令人瞩目
- 苍雾世界花语技能全解析-获取最强战斗技巧的秘籍与攻略
- 魔兽世界TCG卡牌深入解析与策略分享:全面剖析卡牌机制与玩法特点
- Cohere推出AI模型Command A,助力企业借助两块GPU高效运算,部署成本降低50%的新方案
- 王国之泪游戏攻略:中央大废矿具体位置及探索技巧全面解析
- 谷歌Gemini 2.0 Flash新增去除图片水印功能引发版权问题的广泛关注
- 守望先锋:全面解析查莉娅英雄技能的强大与战术应用
- 快手可灵AI全面整合DeepSeek-R1,DeepSeek灵感版正式上线并提供全新体验
- 全面探讨《守望先锋》中奥丽莎的英雄技能与战斗策略分析
- LOL孙悟空:灵动身影下的野区统治者,掌控战场的力量与智慧
- 仙剑世界中谢沧行角色提升战力的必备饰品推荐与装备选择指南
- 英伟达加大对AI领域的投资力度!2024年投资次数达到49次,创下历史新高,超越往年总和!
- 详尽解析DNF游戏中宠物封印胶囊的使用方式和技巧