文章详情

听说过壕无人性的 OpenAI Sora 吧?动辄几百万美元的训练成本,简直就是视频生成界的“劳斯莱斯”。现在,潞晨科技
2025-04-13 16:45:44
文章详情介绍
听说过壕无人性的 OpenAI Sora 吧?动辄几百万美元的训练成本,简直就是视频生成界的“劳斯莱斯”。现在,潞晨科技宣布开源视频生成模型 Open-Sora2.0!
仅仅花费了区区20万美元(相当于224张 GPU 的投入),就成功训练出了一个拥有 110亿参数的商业级视频生成大模型。
性能直追“OpenAI Sora ”
别看 Open-Sora2.0成本不高,实力可一点都不含糊。它可是敢于叫板行业标杆 HunyuanVideo 和拥有300亿参数的 Step-Video 的狠角色。在权威评测 VBench 和用户偏好测试中,Open-Sora2.0的表现都令人刮目相看,多项关键指标上都能够媲美那些动辄花费数百万美元训练的闭源模型。
更令人激动的是,Open-Sora2.0在 VBench 的评测中,与 OpenAI Sora 之间的性能差距竟然从之前的4.52% 大幅缩小至仅仅0.69%!这几乎可以说是性能上的全面追平了!
而且,Open-Sora2.0在 VBench 中的得分甚至超过了腾讯的 HunyuanVideo,真可谓是“长江后浪推前浪”,以更低的成本实现了更高的性能,为开源视频生成技术树立了新的标杆!
在用户偏好评测中,Open Sora 在视觉表现、文本一致性和动作表现这三个关键维度上,至少有两个指标都超越了开源 SOTA 模型 HunyuanVideo 以及商业模型 Runway Gen-3Alpha 等。
低成本高效能的秘密武器
大家肯定好奇,Open-Sora2.0是如何做到以如此低的成本实现如此高性能的?这背后可有不少秘密武器。首先,Open Sora 团队在模型架构上延续了 Open-Sora1.2的设计思路,继续采用 3D 自编码器和 Flow Matching 训练框架。同时,他们还引入了 3D 全注意力机制,进一步提升了视频生成质量。
为了追求极致的成本优化,Open-Sora2.0从多个方面入手:
- 严格的数据筛选,确保高质量的训练数据输入,从源头提升效率。
- 优先进行低分辨率训练,高效学习运动信息,降低计算成本。要知道,高分辨率训练的成本可是低分辨率的几十倍呢!
- 优先训练图生视频任务,加速模型收敛,进一步降低训练成本。而且,在推理阶段,还可以通过文本生图再生视频(T2I2V),以获得更精细的视觉效果。
- 采用了 高效的并行训练方案,结合 ColossalAI 和系统级优化,大幅提升计算资源利用率。各种诸如高效的序列并行和 ZeroDP、细粒度控制的 Gradient Checkpointing、训练自动恢复机制等等“黑科技”加持,让训练效率大大提升。
据估计,市面上10B 以上的开源视频模型,单次训练成本动辄上百万美元,而 Open Sora2.0将这个成本降低了5-10倍。这简直是视频生成领域的福音,让更多人有机会参与到高质量视频生成的研发中来。
开源共享,共建繁荣生态
更令人称赞的是,Open-Sora 不仅开源了模型代码和权重,还开源了全流程训练代码,这无疑将极大地促进整个开源生态的发展。正如第三方技术平台统计,Open-Sora 的学术论文引用量在半年内就获得了近百引用,在全球开源影响力排名中稳居首位,成为全球影响力最大的开源视频生成项目之一。
Open-Sora 团队还积极探索高压缩比视频自编码器的应用,以大幅降低推理成本。他们训练了一款高压缩比(4×32×32)的视频自编码器,将单卡生成768px、5秒视频的推理时间从近30分钟缩短至3分钟以内,速度提升了10倍! 这意味着未来我们能够更快地生成高质量的视频内容。
潞晨科技推出的开源视频生成模型 Open-Sora2.0,以其低成本、高性能、全面开源的特性,无疑给视频生成领域带来了一股强劲的“平价”风。它的出现,不仅缩小了与顶级闭源模型之间的差距,更降低了高质量视频生成的门槛,让更多开发者能够参与其中,共同推动视频生成技术的发展。
🔗 GitHub 开源仓库:https://github.com/hpcaitech/Open-Sora
📄技术报告:https://github.com/hpcaitech/Open-Sora-Demo/blob/main/paper/Open_Sora_2_tech_report.pdf
最新星火攻略
更多- 最终幻想7重生格拉斯兰广阔世界地图探索指南与传送点详细位置解析
- 如何在电脑启动时调整硬盘的启动顺序,以确保系统从指定的硬盘启动
- OpenAI发布全新语音转录模型gpt-4o-transcribe,实现语音转文字高准确率跃升
- 《英雄联盟2025全球先锋赛KC战队全员深入解析与成员特征介绍》
- 暮色森林游戏攻略:战胜米诺陶的有效技巧与战斗策略
- 告别二维!MIDI技术:从图片元素提取并生成沉浸式360度3D环境
- 蚂蚁庄园2025年3月7日最新问题答案:哪一项食物具有光敏感特性
- 造梦三法宝合成完全图鉴:详细介绍及合成技巧解析
- 阿里云与十所亚洲高校及研究机构建立合作,共同培养下一代人工智能人才
- 王者荣耀游戏ID独特符号全解析及使用指南
- 如何在Excel表格中有效删除多余的空白页面,以提升工作效率与文件整洁度
- GTA5全功能作弊代码大全-探索作弊代码的永久有效性与使用技巧
- OpenAI推出全新开发工具助力开发者轻松创建智能AI代理
- 2023年新跨行转账政策解读及相关图片欣赏与分享
- 炉石传说2025年星际英雄传口德卡组最佳推荐与战术分析
最新星火智能
更多- 重磅更新!谷歌AI Studio进一步升级:YouTube视频快速理解与AI绘画角色统一性完美保持
- 深入了解幻境第10层的通行秘籍:顺利抵达的实用指南与策略
- 怪物猎人荒野体力与耐力提升攻略-快速增加血量上限的实用技巧与方法
- 18岁天才创始人凭借超强技术推出现象级AI健康应用Cal AI,八个月便获得超500万次下载!
- 造梦西游5青龙剑进阶所需材料详尽解析与获取方法攻略
- 怪物猎人荒野中卵弓鳍鱼的确切位置及稀有环境生物的详细地图指南
- 在人工智能浪潮中,美国程序员就业人数跌至自1980年以来的最低点,面临严峻挑战
- T5577加密卡无法读取的原因分析及其加密原理详细解析
- 双影奇境全部奖杯获取攻略 - 奖杯解锁全方法详解与技巧分享
- 怪物猎人荒野异常流片手剑最佳配装攻略大揭秘,助你轻松击败强敌!
- 美的集团首次公开其人形机器人样机,展示多样动作能力及应用潜力
- 怪物猎人荒野探索与捕捉怪鸟的详细攻略与技巧
- 模拟人生2角色个性深度分析与性格特征MOD推荐,提升游戏体验的必备工具
- 金铲铲之战先知莫甘娜阵容最佳搭配详细解析与推荐
- Anthropic推出MCP传输机制重要更新:告别长连接,迎接更具灵活性的“流式HTTP”传输方式