通义万相:阿里云推出的AI绘画创作大模型
平台概述
通义万相是阿里云在2023年推出的一款AI绘画创作大模型,属于阿里云“通义大模型家族”。其成立背景是阿里云为推动人工智能技术在各领域的应用,满足用户多样化的创作需求。该模型利用先进的深度学习和生成式对抗网络(GANs)等技术,旨在成为用户进行图像创作和编辑的得力助手,助力艺术创作、设计等领域的创新发展。目前通义万相处于免费试用阶段,用户可访问通义万相官网进行注册体验 。
核心功能
- 文本生成图像:用户只需输入一段文字描述,模型就能根据描述智能地创作出丰富多彩、细节丰富的图像作品。例如输入“山水画”,即可生成相应的视觉作品。用户还能对配色、布局、风格等多种图像设计元素进行灵活控制和个性化定制,提供高度可控性和极大的创作自由度。
- 相似图生成:使用用户生成的图片,生成类似的图片。比如用户上传自己卡通头像,就能生成风格相似的图片,可用于创意发散等场景,生成后用户可选择合适的图片下载。
- 风格迁移:将一张图风格应用到另一张图片中。例如用户上传两张风景图,通过该功能可将一张图的色彩等风格特征应用到另一张图上,使生成的画作呈现出不同的风格效果。
- 涂鸦作画:支持用户进行简单的涂鸦创作,用户可以通过手绘等方式在画布上进行创作,模型会对涂鸦内容进行智能处理和优化,生成具有特色的图像。
- 虚拟模特:可以通过用户上传的模特图片,经过自定义配置,生成模特图片。用户能上传真人实拍商品展示图,选择要保留的商品区域,配置模特形象与场景环境,点击生成即可获取模特大片。
- 写真馆:为用户提供虚拟的写真拍摄场景,用户可以选择不同的场景和服装等,生成具有写真效果的照片。
- 艺术字:提供多种艺术字体样式,用户输入文字后可生成具有艺术风格的文字图片,满足用户对于文字设计的需求。
- 视频生成:支持图生视频、指令视频编辑、人像定制、实时生成等多达8类生成任务。用户输入任意中英文多语言prompt(提示词),就能生成一段高清、逼真的视频。还能实现复杂语义理解和概念组合生成,稳定展现复杂人物运动,逼真还原现实物理规律,如旋转、跳跃、碰撞等。并且可生成与视觉内容高度匹配的声音特效,实现音画同步。
技术优势
与同类产品相比,通义万相具有显著的技术优势。在模型架构上,它基于先进的深度学习和生成式对抗网络(GANs),并采用了多阶段递进训练,从192P图像预训练到720P视频的多阶段递进训练,结合Flow Matching框架,实现14B参数模型的高效稳定收敛。而一些同类产品可能在训练的深度和广度上不如通义万相,导致生成效果和稳定性较差。
在分布式训练方面,通义万相经过详细的负载分析,结合DP、CP、FSDP多种分布式策略,并在不同模块间采用分布式策略切换,能够高效训练长达百万Tokens的模型,而部分竞品在分布式训练的效率和效果上存在不足。
其提出的新型基于Cache的3D因果Wan - VAE架构,能够编解码无限时长1080P视频,并且重构速度提升2.5倍,重构质量也取得头部效果。相比之下,其他同类产品的视频编解码能力和效率较低。
轻量1.3B模型仅需8.19GB显存,消费级GPU(如RTX 4090)可在4分钟左右生成5s视频,且性能超越更大规模开源模型,在资源利用和生成速度上具有明显优势。
在推理加速上,融合CP、扩散缓存(Diffusion Cache)与FP8量化,14B模型推理速度提升1.78倍,而同类产品的推理速度可能较慢。
此外,通义万相首创支持中英文视频内嵌文字生成,通过合成数据与多模态语言模型联合优化,生成与自然场景融合的准确字形,在多模态融合方面领先于部分同类产品。
使用场景
- 艺术创作:艺术家可以利用通义万相的文本生成图像功能,根据自己的创意和想法,输入详细的文字描述,快速生成艺术作品的初稿,节省创作时间和精力。例如画家可以输入“一幅具有赛博朋克风格的未来城市夜景,有飞行汽车、巨大的霓虹灯广告牌”等描述,生成独特的艺术画面。
- 设计领域:设计师在进行平面设计、UI设计等工作时,可使用该模型生成各种风格的设计元素和草图。如输入“简约风格的科技风APP界面,有蓝色的科技线条和白色的背景”,模型能快速生成符合需求的设计草图,为设计师提供灵感和参考。
- 广告营销:广告公司可以使用通义万相生成各种广告素材,如海报、宣传视频等。通过输入与产品相关的文字描述和广告主题,生成具有吸引力的广告内容,提高广告的制作效率和质量。同时,其支持的中英文文字特效生成功能,能满足不同语言和文化背景的广告需求。
- 影视制作:在影视制作领域,通义万相可以用于生成影视特效、动画片段等。例如在制作科幻电影时,通过输入相关的场景描述,如“宇宙中,一艘巨大的星际飞船在星云中穿梭,周围是绚丽的星云和闪烁的星星”,生成逼真的特效画面,降低制作成本。
- 教育领域:教师可以使用通义万相生成教学课件中的图片、视频等内容,丰富教学资源。例如在讲解历史事件时,生成相关的历史场景图片或视频,帮助学生更好地理解教学内容。