AI能力再进化,模仿齐白石画“钢铁虾”,会抢人类“饭碗”吗丨亮见15期( 二 )


而近几年“大模型”出现之后 , 原来分得很细的AI科研人员和AI系统 , 有了共同的基础技术 , 开始往通用的方向发展了 。 现在智源研究院的科研团队 , 原来搞文字的和搞图片的已经开始打通 , 可以有广泛合作了 。
AI能力再进化,模仿齐白石画“钢铁虾”,会抢人类“饭碗”吗丨亮见15期
文章图片
智源研究院旗下免费AIGC创作平台FlagStudio:flagstudio.baai.ac.cn
伍昱:过去对不同任务需求 , 都是需要不同的方法去求解 , 大模型或者说预训练模型 , 则是尝试用同一套技术去解决 , 然后针对不用的任务/应用场景 , 进行一定程度的微调 , 在自然语言领域已经形成了用预训练模型这样一种相对统一的方法去解决不同的问题的范式 。
近两年可能是更大的一个融合 , 包括像计算机方向 。 智源也有团队在研究视觉的大模型 , 其实在解决问题的技术和方法上是很接近的 , 从技术的发展上确实看到了不同模态、不同任务的统一这样一种范式的转变 。
多模态的发展非常迅速 , 而文字生成视频近年来爆火 , 正是多模态方向的发展 。 近一两年来 , 从OpenAI提出DALLE模型开始 , 在实现方法上会有一定的区别——它引入了文字控制 , 而文字的控制又是从语言大模型发展过来的 。
GPT-3(自然语言处理计算模型)它能够去做文本的生成 , 而对于语言的能力转化 , 我可以通过语言来交互 , 让计算机生成一张图片 , 使得它能够符合我的预期 。 同时我的语言其实又可以与计算机交流 , 让它生产代码 , 所我的语言变成了一种工具 , 可以完成更多的事情 。
黄文灏:AIGC技术已有一段时间的发展历史 , 之前就有通过AI完成内容生成的案例 , 但一直没有引爆话题 。
我觉得从产品上来看 , 最大的问题——之前的质量生成内容质量不符合使用者预期 , 可能在60分的水平 , 但这次AIGC火爆和出圈的原因爆火出圈的原因在于我们拥有了大模型的能力 , 使得它的模型水平可以从60提高到80-90分 。
它肯定不是完美的 , 和预期会存在差距 , 但基本上可以做到以假乱真的地步 , 而且比大多数人实际绘画要好很多 , 满足使用者的预期 , 得到他们想要的图片 。
所以 , 我觉得大模型带来了技术或者模型层面上的一个质变 , 使得更多的产品涌现出来 , 让使用者更容易体验到技术带来的优势 。
02
齐白石也能画“钢铁虾”
刘兴亮:体验AIGC后 , 有时感觉自己是个画家 , 有时候感觉这只是另一种形式的搜索 , 有什么区别吗?
刘江:它的界面看上去与搜索很像 , 也是在一个框里输入一些文字 , 就出结果了 。 但底层原理其实完全不同 , AIGC并不是将预先生成的很多图片 , 根据搜索词进行匹配调出 。 AI是收到文字(其实是一种命令提示)后 , 再调用底层模型 , 把画计算出来的 。
AIGC背后涉及比较复杂的数学、计算算法 , 基于海量的数据 。 同样的一条指令 , 可能不同时间 , 生成的内容却是不一样的 , 它有比较强的随机性 , 看上去是有一定创造能力的(背后的机理还不完全清楚) 。
搜索则是基于已经存在库中的已有图片 , 最后呈现的图片也是数据库中的 , 只是去找对应的图像 , 而AI绘画的前提是 , 这幅画本身并不存在 。
比如齐白石 , 算法为什么知道齐白石?因为齐白石的风格统一 , 而且有很多作品 , 计算机算法会对现有的作品和风格进行规律总结 。 你可以命令系统画出齐白石风格的变形金刚、星球大战等场景 , 这是大师生前都不知道的事情 。 当然你也可以让AI画梵高、毕加索风格的中国画……