王奚推荐 | AI作画助手重磅发布：人人皆可“一语成画”

来源：成都商报TMT 2022年8月20日侵删

百度集团副总裁、深度学习技术及应用国家工程研究中心副主任吴甜

8月19日，中国图象图形大会CCIG 2022在成都召开。百度集团副总裁、深度学习技术及应用国家工程研究中心副主任吴甜在会上发表《跨模态大模型技术创新与实践》主题演讲，并正式发布业内首个AI艺术和创意辅助平台——文心·一格，这是百度依托飞桨、文心大模型的技术创新推出的“AI作画”首款产品。

人学习作画一般得从基本功练起，大体上包括线条、色彩、明暗、形体、结构、透视、构图和空间。要想画得出众，除了日积月累勤奋练习，还需要一些天赋，以及对世界的精细观察和创作者独特的创想。这让大部分人只能当画作的观赏者而非创作者。但是，随着深度学习、大模型等技术的发展，AI 能够在极短的时间内“创造”出不同风格的画作，大幅降低了作画的门槛，让人人都能成为“艺术家”。

文心·一格是基于文心大模型的文生图系统实现的产品化创新。在文心·一格官网（yige.baidu.com），用户只需输入自己的创想文字，并选择期望的画作风格，即可快速获取由一格生成的相应画作。官网资料显示，文心·一格现已支持国风、油画、水彩、水粉、动漫、写实等十余种不同风格高清画作的生成，还支持不同的画幅选择。

文心·一格创作的艺术画

文心·一格面向的用户人群非常广泛。它既能启发画师、设计师、艺术家等专业视觉内容创作者的灵感，辅助其进行艺术创作，还能为媒体、作者等文字内容创作者提供高质量、高效率的配图。此外，文心·一格更是为大众用户提供了一个零门槛绘画创作平台，让每个人都能展现个性化格调，享受艺术创作的乐趣。

吴甜表示，数据的井喷式增长、算力的持续突破、算法的持续创新为人工智能带来新机遇，预训练大模型凭借优越的泛化性、通用性和应用效果，成为人工智能发展的重要方向。跨模态大模型是在技术发展和产业实践中孕育而出的，也是百度文心知识增强大模型面向产业应用持续创新及建设的重要方向。

面对日益增长的内容创作需要，如何准确理解用户需求，进而精准刻画并满足多样化风格、高质量生成的要求是技术要解决的关键挑战。文心知识增强跨模态理解大模型在模型创新方面，提出基于多视角对比学习的ERNIE-ViL 2.0，在预训练过程能够同时学习模态间和模态内的多种关联性，提升“图像”和“文本”跨模态语义匹配效果。知识增强跨模态图文生成大模型ERNIE-ViLG，将“文生成图”和“图生成文”任务融合到同一个模型进行端到端学习，从而增强文本和图像的跨模态语义对齐。在此次CCIG 2022会上，吴甜还分享了ERNIE-ViLG文图生成算法的升级，通过渐进式扩散模型，生成空间由小及大、生成轮廓由粗到细，同时根据生成阶段自动选择最优生成网络，文本生成图像的效果取得进一步提升。

新技术在产业实践中应用并创造出价值必须要足够实用化。因此，百度基于文心大模型进行了系统创新，研发了支持AI作画的文生图系统，提供了从用户需求理解到满足的全流程解决方案。

发表回复 取消回复

发表回复取消回复