文章详情
比PS更懂你的AI图片编辑工具——MagicQuill(魔法羽毛)来了!1分钟出图:不用打字、简单勾画几笔就能编辑图片。还支持直接在iPad上在线编
2024-11-22 10:58:47
文章详情介绍
比PS更懂你的AI图片编辑工具——MagicQuill(魔法羽毛)来了!
1分钟出图:不用打字、简单勾画几笔就能编辑图片。
还支持直接在iPad上在线编辑!
研究团队来自香港科技大学、蚂蚁集团、浙江大学和香港大学等机构。
我们先一起看个例子感受一下——
有了MagicQuill,现在当你想要给人物更换衣服时,就可以直接画出领子,它会自动帮你补全。
加条项链、去除路人,几秒钟就搞定:
你还可以更换发色、让人物戴上花环,甚至更改花朵的颜色:
只需要1分钟多的时间,就可以实现上面这么多编辑效果,尤其是对于想要快速修改照片的用户来说,简直太方便了!
还有更多有趣的例子,机器人、汽车、蛋糕等,都可以快速修改!
有多位网友评论说,AI图像编辑真的进步飞快,“能读懂用户心思”是非常具有未来感的用户体验。
MagicQuill目标是理解精细修改意图
虽然目前AI图像编辑工具是百花齐放,但想要实现精细编辑,很多工具的效果还是比较令人捉急。
MagicQuill团队的目标是实现一个高效且精确的图像编辑系统,能够在用户进行细微修改时提供更好的使用体验。
这不仅包括实现细粒度的图像编辑控制、还要提供直观的用户界面、并实时预测用户意图。
最终团队选择基于扩散模型、文本和掩码的图像编辑方法、以及多模态大型语言模型(MLLMs) 进行实现,并设计了简约实用的用户界面。
MagicQuill的具体构成
一起来看看MagicQuill系统的具体构成是什么样的。主要分为3个部分:
1.编辑处理器
编辑处理器采用双分支架构,包括内容感知修复分支和结构引导分支。
内容感知修复分支利用UNet架构,结合掩码图像特征和预训练的扩散网络进行像素级修复。
结构引导分支则通过ControINet插入条件控制,确保编辑操作的精确性。
2.绘画助手
绘画助手通过多模态大型语言模型(MLLM)实时预测用户意图。
具体的任务称为“Draw&Guess”,也就是通过图像上下文解释用户笔画并自动生成相关提示。
团队采用的数据集通过生成边缘图和模拟用户笔画进行构建,并使用LLaMA模型进行微调。
3.创意收集器
创意收集器为用户提供了一个简约直观的界面,它兼容多个平台,团队也提供了在线demo,你可以在电脑或iPad上直接使用!
界面主要包括提示区、工具栏、图层管理、主画布、生成图像预览区、执行按钮和参数调整区。
按钮设计非常简洁,有上传图片、“增加”画笔、“减少”画笔、改颜色画笔、橡皮等等。
下方的参数调整区域更适合有丰富的生图经验的专业人士:
比如在Base Model Name里,你可以选择不同的基础模型,有适合生成真实风格的SD1.5/realisticVisionV60B1_v51VAE.safetensors、适合生成幻想风格的SD1.5/DreamShaper.safetensors等。
你还可以调整Negative Prompt避免生成部分内容、还有Fine Edge精细边缘调整、Grow Size调整笔触大小等等。完整工作流程如下图所示。
实际效果怎样呢?
为了更准确地测试MagicQuill的具体效果,团队还设计了3个验证实验:
1.可控生成评估
将MagicQuill与四个基线方法(SmartEdit、SketchEdit、BrushNet及其组合)进行比较,评估编辑处理器的可控生成能力,尤其关注边缘对齐和颜色保真度。
结果显示,MagicQuill的编辑处理器在所有指标上均优于基线方法,具有更高的边缘对齐度和颜色保真度。
2.预测准确性评估
为了评估MagicQuill在模拟手绘输入下的语义预测准确性,团队将它的绘画助手与三种最先进的MLLMs (LLaVA-1.5、LLaVA-Next、GPT-4o)进行了比较。
结果显示,绘画助手在所有测试的MLLMS中表现最佳,可以更准确地捕捉和预测用户绘图的语义含义。
3.创意收集器有效性评估
团队还通过用户研究评估了创意收集器的效率和可用性,并比较了它与基线系统的差异。
用户研究结果显示,MagicQuill在所有评估维度上都显著优于基线系统,包括复杂性和效率、一致性和集成、易用性以及总体满意度4个方面。
看来体验过的用户反馈都不错呢!
未来工作
团队还表示,这将是一个长期的工作,未来他们的目标是扩展系统功能,纳入更多的编辑类型,如基于参考的编辑,这将允许用户使用外部图像指导修改。
他们还计划实现分层图像生成,可以让编辑更加灵活、支持更多复杂合成。
系统也会支持排版,能够处理更多图像中的文本元素。
目前MagicQuill的代码、论文和Demo都已上线,感兴趣的小伙伴可以马上试用起来了!链接就在下方。
最新星火攻略
更多- 龙种肉车:在现代农业中展现的新机遇与潜力
- 英伟达在中国大力招聘,重点发展自动驾驶技术的研发项目!
- 神雲科技SC24展出最新AI与HPC服务器产品,创新CPU和GPU技术强势登场
- 云智慧ITSM软件荣获亚太区第八名,中国实力闪耀全球科技舞台
- 苹果AI新功能中文名字正式公布,图乐园与智绘表情闪耀登场,隐私保护引发关注
- 小米向专利局提交申请,要求对华为一项专利进行无效宣告!
- 潜行者2中三位船长任务完成的详细攻略与技巧
- 金铲铲之战4.24版本最佳阵容分析与选择指南
- 草莓丝瓜向日葵returnmark6榴莲樱桃:鲜果盛宴的未尽篇章与生活的细腻交融
- 暴躁妹妹csgo蘑菇特效玩法攻略:畅享游戏中精彩的战斗体验
- 一分钟「破解」iPhone 马赛克功能:这个让人又爱又恨的隐私保护究竟安全性几何?
- 怀孕期间即使是微量饮酒也可能引起胎儿面部特征的变化
- 周鸿祎牵头世界互联网大会AI专委会,共同打造全球智能生态的美好未来
- 阿里CEO吴泳铭透露:在AI时代,通义千问API调用成本骤减97%助力企业创新
- 手机云顶之奕畅玩指南:解锁你的云端竞技高手之路
最新星火智能
更多- 迅速来袭!Android 15全球首晒:代号“香草冰淇淋”甜美惊艳无比
- 无限暖暖古铸剑遗址探索指南-一步步详细探索流程解析
- 浙江国央乡村发展公司正式成立,致力于农村旅游与人工智能通用应用系统的创新发展
- 旗舰机型新风潮!四款高性价比顶尖手机,谁能赢得市场认可?
- 日产无人区一线二线三线2023未来出行新选择:探索无人驾驶技术的美好前景
- 重生电流特效:天堂2全面指南——详解获取方式
- 谷歌与三星携手打造,震撼亮相安卓XR头显系统的全新体验!
- 金铲铲之战S13赛季梅尔阵容攻略与推荐-最佳梅尔阵容选择解析
- 揭示ChatGPT成功背后的秘密,我认为我终于找到了答案!
- 崩坏星穹铁道2.5推出的卡池角色都有哪些?
- 第五人格调酒师人皮肤特效演示解析与展示
- 台积电投资3000亿在美国推进3nm/4nm项目,却遭遇重重困难未能如愿
- 据悉,Apple Intelligence 有望在 10 月与 iOS 18.1 一起正式推出
- 无限暖暖错位摄影三瓶插花任务详细步骤及完成攻略
- 研究显示:青少年睡眠呼吸暂停症影响大脑结构和功能的差异