文章详情

听说过壕无人性的 OpenAI Sora 吧?动辄几百万美元的训练成本,简直就是视频生成界的“劳斯莱斯”。现在,潞晨科技
2025-04-25 00:25:12
文章详情介绍
听说过壕无人性的 OpenAI Sora 吧?动辄几百万美元的训练成本,简直就是视频生成界的“劳斯莱斯”。现在,潞晨科技宣布开源视频生成模型 Open-Sora2.0!
仅仅花费了区区20万美元(相当于224张 GPU 的投入),就成功训练出了一个拥有 110亿参数的商业级视频生成大模型。
性能直追“OpenAI Sora ”
别看 Open-Sora2.0成本不高,实力可一点都不含糊。它可是敢于叫板行业标杆 HunyuanVideo 和拥有300亿参数的 Step-Video 的狠角色。在权威评测 VBench 和用户偏好测试中,Open-Sora2.0的表现都令人刮目相看,多项关键指标上都能够媲美那些动辄花费数百万美元训练的闭源模型。
更令人激动的是,Open-Sora2.0在 VBench 的评测中,与 OpenAI Sora 之间的性能差距竟然从之前的4.52% 大幅缩小至仅仅0.69%!这几乎可以说是性能上的全面追平了!
而且,Open-Sora2.0在 VBench 中的得分甚至超过了腾讯的 HunyuanVideo,真可谓是“长江后浪推前浪”,以更低的成本实现了更高的性能,为开源视频生成技术树立了新的标杆!
在用户偏好评测中,Open Sora 在视觉表现、文本一致性和动作表现这三个关键维度上,至少有两个指标都超越了开源 SOTA 模型 HunyuanVideo 以及商业模型 Runway Gen-3Alpha 等。
低成本高效能的秘密武器
大家肯定好奇,Open-Sora2.0是如何做到以如此低的成本实现如此高性能的?这背后可有不少秘密武器。首先,Open Sora 团队在模型架构上延续了 Open-Sora1.2的设计思路,继续采用 3D 自编码器和 Flow Matching 训练框架。同时,他们还引入了 3D 全注意力机制,进一步提升了视频生成质量。
为了追求极致的成本优化,Open-Sora2.0从多个方面入手:
- 严格的数据筛选,确保高质量的训练数据输入,从源头提升效率。
- 优先进行低分辨率训练,高效学习运动信息,降低计算成本。要知道,高分辨率训练的成本可是低分辨率的几十倍呢!
- 优先训练图生视频任务,加速模型收敛,进一步降低训练成本。而且,在推理阶段,还可以通过文本生图再生视频(T2I2V),以获得更精细的视觉效果。
- 采用了 高效的并行训练方案,结合 ColossalAI 和系统级优化,大幅提升计算资源利用率。各种诸如高效的序列并行和 ZeroDP、细粒度控制的 Gradient Checkpointing、训练自动恢复机制等等“黑科技”加持,让训练效率大大提升。
据估计,市面上10B 以上的开源视频模型,单次训练成本动辄上百万美元,而 Open Sora2.0将这个成本降低了5-10倍。这简直是视频生成领域的福音,让更多人有机会参与到高质量视频生成的研发中来。
开源共享,共建繁荣生态
更令人称赞的是,Open-Sora 不仅开源了模型代码和权重,还开源了全流程训练代码,这无疑将极大地促进整个开源生态的发展。正如第三方技术平台统计,Open-Sora 的学术论文引用量在半年内就获得了近百引用,在全球开源影响力排名中稳居首位,成为全球影响力最大的开源视频生成项目之一。
Open-Sora 团队还积极探索高压缩比视频自编码器的应用,以大幅降低推理成本。他们训练了一款高压缩比(4×32×32)的视频自编码器,将单卡生成768px、5秒视频的推理时间从近30分钟缩短至3分钟以内,速度提升了10倍! 这意味着未来我们能够更快地生成高质量的视频内容。
潞晨科技推出的开源视频生成模型 Open-Sora2.0,以其低成本、高性能、全面开源的特性,无疑给视频生成领域带来了一股强劲的“平价”风。它的出现,不仅缩小了与顶级闭源模型之间的差距,更降低了高质量视频生成的门槛,让更多开发者能够参与其中,共同推动视频生成技术的发展。
🔗 GitHub 开源仓库:https://github.com/hpcaitech/Open-Sora
📄技术报告:https://github.com/hpcaitech/Open-Sora-Demo/blob/main/paper/Open_Sora_2_tech_report.pdf
最新星火攻略
更多- 阿里巴巴创新推出AI旗舰产品“新夸克”,全面升级为具有多元功能的“AI超级框”
- 神隐之子神觉者葵角色全面解析与成长指南
- 智谱AI成功完成珠海地区5亿元融资,进一步推动人工智能技术发展
- 魔兽世界灵魂兽全解析与攻略 详尽盘点魔兽世界灵魂兽的种类与特点
- 揭秘江湖暗器的四季百样技艺与奥秘,畅谈其背后鲜为人知的故事与哲学
- 深入探讨魔兽世界台服数据库 解析其丰富内容与游戏数据的重要性
- 潞晨科技发布全新开源视频模型Open-Sora 2.0,完整训练流程全面开源与共享
- 在江湖天池进行钓鱼活动,收益分析及其潜在利润究竟如何?
- CMU团队发布全新元强化微调技术:为大语言模型推理能力注入新活力的创新方法
- 江湖萌新玩家如何在枪开局的情况下快速到达琼崖的全方位保姆级攻略
- 阿里巴巴全新推出的夸克平台,构建“AI 超级框”综合服务解决方案
- 海外发行在票房大卖王成功中的关键作用及影响分析
- 阿里巴巴发布AI旗舰应用“新夸克” 实现全面升级至“AI超级框”的全新体验
- 饥荒的阿姨7-4:探讨饥荒的阿姨7-4如何引领生存竞技的新风潮
- 深入探讨江湖拳技如何在西域传承与发展全攻略
最新星火智能
更多- LynxAI成功获得数百万人民币的天使轮融资,进一步推动人工智能技术的发展
- 帝国时代2的所有秘籍详细解析与技巧分享,助你轻松征服游戏世界
- 探讨江湖中的自创门派技巧:如何在武侠世界中打造独特的武功与门派特色
- ServiceNow以28.5亿美元收购Moveworks,是否将彻底改变AI聊天机器人行业的竞争格局?
- 百度文心快码正式发布Comate Zulu新版本,并启动全面公测以提升用户体验
- 江湖铁皮箱获取方法详解,掌握这些技巧助你轻松入手
- 谷歌推出Gemini Robotics机器人控制模型,助力机器人像人类一样灵活思考与行动
- 守望先锋国服第15赛季回归时间及预期变化分析
- yn荡校园运动会主要内容:精彩纷呈的竞技对决与团结合作的精神展现
- 如何成功通关江湖西游中的重重劫难,畅游全新冒险世界的秘籍分享
- AI口型技术迎来革命性进展:新一代Captions模型Mirage打造令人惊叹的超真实用户生成视频内容
- 如何获得江湖八卦盘的详细技巧与方法分享,助你轻松掌握收集途径
- 人形机器人竞争再迎强敌!Pepper创始人推出全新3万美元“外星萌宠”引发热议
- 阿里通义推出创新视频生成与编辑模型VACE 可精准控制运动轨迹及替换视频中主体等功能
- 欢乐对决中的强力阵容搭配技巧与策略分享