从AI画画到“用声音做视频”,全球掘金AIGC|焦点分析

编辑|苏建勋
整个科技行业经历了让人疲惫的2022年 。 但在下半年里 , AI来了个华丽的返场——
登台的新宠儿名为“AIGC” , 又称“生成式AI”(GenerativeAI) 。 这一领域正以令人侧目的速度发展 , 将创新和技术再度拉回到世界舞台的焦点 。
今年4月 , 一家名为OpenAI的公司公布旗下的DALL-E2模型 , 其用文字生成图像的质量之高 , 让人震惊——以前 , “AI画画”还只是一小群人的游戏 , AI画出来的画 , 像出自小学生之手一样朴实稚拙 。
但很快 , 大家发现AIGC进步神速 。 仅仅过了4个月 , 一名游戏设计师凭借AI模型Midjourney画出来的一幅画 , 夺取知名艺术大奖 , 这惹来争议一片 。
从AI画画到“用声音做视频”,全球掘金AIGC|焦点分析
文章图片
获奖作品《太空歌剧院》
而刚过去的10月 , AIGC的另一家代表公司Stability.AI , 仅仅成立2年 , 就宣布完成1.01亿美金的种子轮融资 , 估值达10亿美金 , 步入独角兽行列 。
AI领域沉寂太久了 。 上一次AI吸引巨大的公众关注度 , 还要追溯到2016年——AlphaGo在围棋比赛中最终击败韩国国手李世石 。 过去几年里 , AI有点像科技圈里的过气网红 , 技术上少有让大众惊喜的进展 。 在国内 , AI公司的更多新闻是上市受挫、盈利遥遥无期 。
如今 , AIGC接棒AlphaGo , 带着全新的故事归来 。
最新的进展是 , AIGC已有强劲的商业化苗头 。 一家名为Jasper的公司 , 用AI帮助企业和个人客户写社交媒体、博客等内容 。 Jasper最近宣布 , 今年收入预计近亿美元 , 这距离这家公司成立仅过去18个月 。
浪潮已然来临 。 AIGC已处在爆发前夜 , 一个技术和商业化交汇的路口 。 巨大的关注度背后 , 是整个产业链的蓄势待发 , 摩拳擦掌 。
AI重归舞台中心 , 大厂小厂齐下场
但从今年开始 , 各种各样的AI绘画应用 , 如同雨后春笋一般冒出 。 无论是大厂小厂 , 都像约好了一样发布AI绘画产品:2月 , DiscoDiffusion推出AI图像生成平台;7月 , 微软旗下的OpenAI推出新模型WALL-E2 , 并进行公测;8月 , StabilityAI推出StableDiffusion , 并开放注册……
与2017年时相比 , 现在的AI画画到了“Text-to-Image”(文字生成图像)的新阶段 。 即用户描述画面中的内容、风格、材质、位置等 , 提供一个词群(如深邃的太空、达利画风、远景) , 机器就能进行解析 , 最后输出一张画作 。
在以前 , 人们普遍意义上感受到AI的技术改革 , 很大程度都是在于一些决策性行为 , 如识别人脸(是否符合本人)、下棋(如何得出最优解)等等 。
而“输入文字-AI画画”的最大不同 , 在于底层的AI模型的学习模式是发散性的——简而言之 , 是通过对文字、图片、数据等信息的学习 , AI要自己开始“模仿”和“创造”新的东西 。 这大大降低了人们的创作门槛 。
AI绘画能发展如此之快 , 原因首先在于 , 前几年全球科技行业斥巨资和大量人力 , 大练“AI大模型” , 为之打下基础 。
AI大模型 , 顾名思义 , 即是拥有巨大样本量的模型 。 2017年 , Transformer结构的提出 , 让得深度学习模型参数突破了1亿 。 随着深度学习技术发展 , 模型中的数据量 , 更是逐步到了十亿级 , 再到百亿级 。
以前用于训练AI画画的著名对抗生成网络模型“GAN” , 就是一个百亿级的大模型 。 但以前 , GAN学习画画的模式 , 只能做到无限接近原作的模仿 , 而不是创新 。
从AI画画到“用声音做视频”,全球掘金AIGC|焦点分析
文章图片
真正让AI绘画取得突破的 , 是几家AI公司的接力 , 包括OpenAI和Stability.AI在内的公司 , 将深度学习模型CAN、Diffusion等 , 和GAN模型进行了创新性的结合——相当于让AI换了一种学习画画的方式 。 这才让AI画画真正摆脱了模仿 , 走向“创造”之路 。