从AI画画到“用声音做视频”，全球掘金AIGC｜焦点分析编辑|苏建勋整个科技行业经历

编辑|苏建勋
整个科技行业经历了让人疲惫的2022年。但在下半年里， AI来了个华丽的返场——
登台的新宠儿名为“AIGC” ，又称“生成式AI”（GenerativeAI）。这一领域正以令人侧目的速度发展，将创新和技术再度拉回到世界舞台的焦点。
今年4月，一家名为OpenAI的公司公布旗下的DALL-E2模型，其用文字生成图像的质量之高，让人震惊——以前， “AI画画”还只是一小群人的游戏， AI画出来的画，像出自小学生之手一样朴实稚拙。
但很快，大家发现AIGC进步神速。仅仅过了4个月，一名游戏设计师凭借AI模型Midjourney画出来的一幅画，夺取知名艺术大奖，这惹来争议一片。

文章图片
获奖作品《太空歌剧院》
而刚过去的10月， AIGC的另一家代表公司Stability.AI ，仅仅成立2年，就宣布完成1.01亿美金的种子轮融资，估值达10亿美金，步入独角兽行列。
AI领域沉寂太久了。上一次AI吸引巨大的公众关注度，还要追溯到2016年——AlphaGo在围棋比赛中最终击败韩国国手李世石。过去几年里， AI有点像科技圈里的过气网红，技术上少有让大众惊喜的进展。在国内， AI公司的更多新闻是上市受挫、盈利遥遥无期。
如今， AIGC接棒AlphaGo ，带着全新的故事归来。
最新的进展是， AIGC已有强劲的商业化苗头。一家名为Jasper的公司，用AI帮助企业和个人客户写社交媒体、博客等内容。 Jasper最近宣布，今年收入预计近亿美元，这距离这家公司成立仅过去18个月。
浪潮已然来临。 AIGC已处在爆发前夜，一个技术和商业化交汇的路口。巨大的关注度背后，是整个产业链的蓄势待发，摩拳擦掌。
AI重归舞台中心，大厂小厂齐下场
但从今年开始，各种各样的AI绘画应用，如同雨后春笋一般冒出。无论是大厂小厂，都像约好了一样发布AI绘画产品：2月， DiscoDiffusion推出AI图像生成平台；7月，微软旗下的OpenAI推出新模型WALL-E2 ，并进行公测；8月， StabilityAI推出StableDiffusion ，并开放注册……
与2017年时相比，现在的AI画画到了“Text-to-Image”（文字生成图像）的新阶段。即用户描述画面中的内容、风格、材质、位置等，提供一个词群（如深邃的太空、达利画风、远景），机器就能进行解析，最后输出一张画作。
在以前，人们普遍意义上感受到AI的技术改革，很大程度都是在于一些决策性行为，如识别人脸（是否符合本人）、下棋（如何得出最优解）等等。
而“输入文字-AI画画”的最大不同，在于底层的AI模型的学习模式是发散性的——简而言之，是通过对文字、图片、数据等信息的学习， AI要自己开始“模仿”和“创造”新的东西。这大大降低了人们的创作门槛。
AI绘画能发展如此之快，原因首先在于，前几年全球科技行业斥巨资和大量人力，大练“AI大模型” ，为之打下基础。
AI大模型，顾名思义，即是拥有巨大样本量的模型。 2017年， Transformer结构的提出，让得深度学习模型参数突破了1亿。随着深度学习技术发展，模型中的数据量，更是逐步到了十亿级，再到百亿级。
以前用于训练AI画画的著名对抗生成网络模型“GAN” ，就是一个百亿级的大模型。但以前， GAN学习画画的模式，只能做到无限接近原作的模仿，而不是创新。

文章图片
真正让AI绘画取得突破的，是几家AI公司的接力，包括OpenAI和Stability.AI在内的公司，将深度学习模型CAN、Diffusion等，和GAN模型进行了创新性的结合——相当于让AI换了一种学习画画的方式。这才让AI画画真正摆脱了模仿，走向“创造”之路。