文章详情

近日,科技巨头微软公开了一项引人注目的研究项目——WHAMM(World and Human Action MaskGI
2025-04-28 10:53:25
文章详情介绍
近日,科技巨头微软公开了一项引人注目的研究项目——WHAMM(World and Human Action MaskGIT Model)。这是一个创新的人工智能模型,能够完全在AI模型内部生成并运行经典游戏《雷神之锤II》,实时呈现可供玩家操作的游戏版本。这项研究隶属于微软的Co pil ot Labs,旨在探索生成式AI在互动媒体领域的潜力与边界。
颠覆传统:AI模型直接生成可玩游戏
与以往的游戏AI主要集中在控制游戏角色或生成游戏内容片段不同,WHAMM的独特之处在于它能够从零开始生成整个游戏环境和动态过程,并且能够响应玩家的实时操作。这意味着玩家可以直接与由AI模型“想象”出来的《雷神之锤II》世界进行互动,例如移动、跳跃、射击和放置物体。这款AI生成的演示版本还能够保存玩家对环境所做的改变,并允许探索隐藏区域。
WHAMM是微软“Muse”模型家族的一员,该家族专注于为游戏开发提供生成式AI工具。此前的版本WHAM-1.6B曾被训练用于游戏《Bleeding Edge》,但性能仅为每秒约一帧。WHAMM在性能上实现了显著飞跃,能够生成每秒超过十帧的画面,足以支持模型内部的实时互动。
技术突破:更少数据,更快生成
WHAMM的成功得益于两项关键的技术创新:大幅减少的训练数据和全新的技术策略。相比WHAM-1.6B使用了长达七年的游戏数据进行训练,WHAMM仅需一周从单个关卡收集的《雷神之锤II》游戏数据。这些由专业测试人员记录的数据提供了高质量、有针对性的游戏行为示例,使得模型能够更高效地学习。
在技术策略上,WHAMM摒弃了WHAM-1.6B所采用的自回归方法(逐个生成图像标记),转而采用MaskGIT策略。这种方法允许模型在多次迭代中并行生成所有图像标记。这一改变显著提升了生成速度,并且输出分辨率也从300×180像素提高到了640×360像素。
WHAMM系统的工作流程分为三个阶段:首先,使用ViT-VQGAN将图像转换为标记;然后,一个拥有约5亿参数的“骨干”Transformer根据上下文预测接下来会发生什么;最后,一个拥有2.5亿参数的较小“细化”模块通过多次迭代改进预测的图像标记。为了生成新的帧,模型会使用前九个图像-动作对作为上下文。
局限犹存:探索AI游戏开发的未来方向
尽管WHAMM展示了令人兴奋的潜力,但它并非完美地复刻了原始的《雷神之锤II》。由于训练数据集的限制,模型生成的环境是近似的,导致了一些技术上的不足。例如,敌方角色看起来较为模糊,战斗缺乏真实感,且生命值指示不可靠。此外,如果物体在屏幕外停留超过0.9秒(模型的上下文窗口限制),就会消失。可玩区域仅限于关卡的某个片段,一旦到达该区域的终点,模拟就会停止。同时,输入延迟仍然较高,玩家的操作和系统响应之间存在明显的延迟。
微软将WHAMM视为未来AI辅助游戏开发的一个实验性基础。它也代表了当前探索如何将生成式AI应用于游戏开发的众多新兴工具之一。其他类似的尝试包括GameGen-O(专注于生成开放世界模拟)、以及谷歌和Deepmind的GameNGen和DIAMOND(用于模拟《DOOM》和《反恐精英》等游戏)。这些模型虽然取得了显著进展,但仍然面临着低分辨率输出、有限的内存和上下文感知等技术限制。
游戏产业拥抱AI:降本增效的潜力
游戏产业尤其容易接纳生成式AI,因为它融合了代码、设计、故事叙述和多媒体等多个学科,且开发周期常常受到预算和时间限制。这种创意复杂性和资源压力的结合,使得游戏制作特别容易接受能够部分自动化结构化任务的工具。
总结
微软发布的WHAMM模型通过在AI模型内部实时生成可玩的《雷神之锤II》演示,展示了生成式AI在互动娱乐领域的巨大潜力。尽管目前仍存在一些局限性,但WHAMM的技术突破,例如更高效的数据学习和并行的图像生成策略,为未来AI驱动的游戏开发开辟了新的道路。
最新星火攻略
更多- 永恒战士2无限钻石攻略与技巧分析:全面解锁无限钻石背后的秘密
- OpenAI 最新的图像生成技术引发虚假文件制作的浪潮,助长了不实信息的传播
- Meta被指责AI模型存在"双重标准":评测版与公开版Maverick性能差异明显引发争议
- 谷歌最新研究:合成数据推动大型模型发展,数学推理能力增强幅度达八倍
- Runway 完成 3.08 亿美元融资,最新估值已突破 30 亿美元大关
- 一级做ae视频片段的注意事项:兼顾创意与技术,确保视听呈现完美
- 清明假期期间广西高速公路借助AI交通大模型有效缓解交通拥堵问题
- 谷歌 Gemini 2.5 Pro API 定价正式公布,使用量激增引发行业广泛关注
- Meta 正式发布开源原生多模态 Llama 4,强劲性能引发广泛关注与讨论
- 比尔・盖茨预测:AI正在改变职业生态,三种职业将立于不败之地,难以被取代
- 雷神岛探寻宝箱之旅:揭秘雷神岛宝箱的神秘与奇迹
- 百度AI萝卜快跑荣获2025年度爱迪生奖 无人驾驶领域最佳创新产品金奖
- 老公牛影院免费观看电视剧的优点:无广告播放与丰富剧集选择的双重体验
- DeepSeek 联手清华大学开展研究: 通过创新奖励模型推理技术,显著增强系统的可扩展性
- 卡内基梅隆大学AI2T创新框架:提升智能体开发效率并推动多领域应用的变革之路
最新星火智能
更多- 斩魂刺杀角色深度剖析及刷图加点技巧全面解析
- 微软首席技术官预测到2030年将有95%的编程代码由人工智能生成,人类开发者的角色将发生重大转变
- Midjourney V7 正式发布:全新模型带来极致美观与更高连贯性体验
- 字节跳动发布DreamActor-M1:全新Runway Act功能推动动画生成技术的突破与发展
- 新一代多模态框架推动蛋白质设计革命,人工智能引领生物科技的未来趋势
- 腾讯元宝「收藏夹」全新升级:跨平台同步随时无缝衔接聊天新体验
- 王者荣耀周年庆的具体日期是什么时候,以及每年的庆祝活动通常安排在几月几号
- Anthropic 启动“人工智能助力校园”计划,推动高等教育与批判性思维的结合与发展
- AI每日动态:即梦3.0内测发布2K商业海报;ChatGPT推出新图像生成功能;饿了么上线“AI智能入驻经理”服务
- 字节跳动发布DreamActor-M1项目,力争在AI角色表演领域超越Runway Act-One技术
- 2025年3月全球生成式AI市场发展趋势综述与分析
- 神鬼世界的游戏类型分析:它是否真的属于3D游戏的范畴?
- Infosys 与 Formula E 合作打造 AI 驱动的数据中心,以提升车迷的互动体验和赛事参与感
- 深度解析QQ飞车紫钻每月礼包内容与价值,探讨其对玩家游戏体验的影响
- Genspark推出全新自动化AI智能代理Super Agent 具备自我思考与工具调用的强大能力
最新星火游戏
更多








