AI作画爆火背后,一半海水一半火焰( 三 )


03什么是中国式AI作画该有的样子?
回到中国市场 , 在行业内普遍由DALL-E2和StableDiffusion等国外模型唱主角的背景下 , 如何让AI绘画更好的表达中国元素成为一个不容忽视的问题 。
为什么要这么说 , 我们先来看看一副AI绘画作品是如何产生的 。
在盗梦师小程序中输入文本:沐浴在晨光里;山顶上有中国式建筑;壮丽的、奇妙的;约翰·豪;山水;湖泊;云;早晨;农田;王凌;神话;光效;梦;格雷格·鲁特科夫斯基 , 虚拟引擎;詹姆斯·格尼;ArtStation
几秒之后就能生成以下一副作品 。
AI作画爆火背后,一半海水一半火焰
文章图片
很明显 , 模型对中文语义与中国文化的理解非常重要 , 特别是在实际落地阶段 , 模型如果不能理解具有中国特色的行业特点 , 那么AI绘画出的产品将很难适用行业及场景的需求 。
对此 , 盗梦师虽然用的是StableDiffusion模型 , 但对该模型进行了中国本土化的改造 , 用自己写的followinstruction的方式对模型进行训练 , 并且加入了大量本地化数据 。
TIAMAT也认为 , AI模型的训练过程其实和小学生练习写作的过程非常相似 , 不断吸收优秀作品的写作风格、修辞手法 , 才能最终创作出一篇高分作品 , 其中采用中国元素的数据资源进行训练是极为关键的一环 。
百度发布的AI绘画平台文心ERNIE-ViLG2.0中 , 则采用了知识增强算法的混合降噪专家建模 。
为了能够准确理解用户在使用AI绘画应用时输入文字的语义 , 特别是一些复杂描述 , ERNIE-ViLG2.0通过视觉、语言等多源知识指引扩散模型学习 , 强化文图生成扩散模型对于语义的精确理解 。
为了增强AI绘画生成作品的精细度 , ERNIE-ViLG2.0又引入了基于时间步的混合降噪专家模型来提升模型建模能力 , 让模型在不同的生成阶段选择不同的“降噪专家”网络 , 从而实现更加细致的降噪任务建模 , 进而提升生成图像的质量 。
众所周知 , 要想提高AI作画的能力 , 特别是对中文语义和中国文化的理解 , 就必须有大量的中文图文数据对模型进行训练 , 这是一个极其繁琐与耗费时间与金钱的过程 , 如果没有足够多的市场需求 , 一般的AI绘画平台不会投入太多资源 。
百度不同 , 它在搜索、AI以及深度学习框架等业务的研发中已经积累了海量的中文图文数据资源 , 这些资源可以随时调用 , 同时也成为ERNIE-ViLG2.0的核心竞争力 , 相比其他模型 , ERNIE-ViLG2.0在表达具有中国风意境的画作中表现更为突出 。
在某种程度上来说 , AI作画的技术突破虽然是由美国带动的 , 但中国的跟进速度并不慢 , 演化到现在 , AI绘画并不是简简单单的市场开拓方面的商业竞争 , 更是关乎到自主掌控AI关键技术的竞争 , 而其中取胜的关键是技术研发过程中寻找市场的内生需求 , 通过因地制宜的本土化适配 , 做好细分市场和细分场景的落地 。 返回搜狐 , 查看更多
责任编辑: